Fugu-MT 論文翻訳(概要): METAMON: Finding Inconsistencies between Program Documentation and Behavior using Metamorphic LLM Queries

論文の概要: METAMON: Finding Inconsistencies between Program Documentation and Behavior using Metamorphic LLM Queries

arxiv url: http://arxiv.org/abs/2502.02794v1
Date: Wed, 05 Feb 2025 00:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.918587
Title: METAMON: Finding Inconsistencies between Program Documentation and Behavior using Metamorphic LLM Queries
Title（参考訳）: メタモン:メタモルフィックLLMクエリを用いたプログラムドキュメンテーションと振る舞いの不整合を見つける
Authors: Hyeonseok Lee, Gabin An, Shin Yoo,
Abstract要約: 本稿では,既存の検索ベーステスト生成技術を用いて,現在のプログラム動作をテストケース形式でキャプチャするMETAMONを提案する。 MeTAMONはこのタスクでメタモルフィックテストと自己整合性によってサポートされている。 Defects4J v2.0.1の5つのオープンソースプロジェクトを使って生成された9,482対のコードドキュメンテーションとコードスニペットに対する実証的な評価は、METAMONがコードとドキュメントの不整合を精度0.72、リコール0.48で分類できることを示している。
参考スコア（独自算出の注目度）: 10.9334354663311
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code documentation can, if written precisely, help developers better understand the code they accompany. However, unlike code, code documentation cannot be automatically verified via execution, potentially leading to inconsistencies between documentation and the actual behavior. While such inconsistencies can be harmful for the developer's understanding of the code, checking and finding them remains a costly task due to the involvement of human engineers. This paper proposes METAMON, which uses an existing search-based test generation technique to capture the current program behavior in the form of test cases, and subsequently uses LLM-based code reasoning to identify the generated regression test oracles that are not consistent with the program specifications in the documentation. METAMON is supported in this task by metamorphic testing and self-consistency. An empirical evaluation against 9,482 pairs of code documentation and code snippets, generated using five open-source projects from Defects4J v2.0.1, shows that METAMON can classify the code-and-documentation inconsistencies with a precision of 0.72 and a recall of 0.48.
Abstract（参考訳）: コードドキュメンテーションは、正確に書けば、開発者が付随するコードを理解するのに役立つ。しかし、コードとは異なり、コードドキュメンテーションは実行によって自動的に検証できないため、ドキュメントと実際の振る舞いの矛盾につながる可能性がある。このような不整合性は、開発者がコードを理解するのに有害であるが、人間のエンジニアが関与しているため、それらをチェックして見つけることはコストのかかる作業である。本稿では,既存の検索ベースのテスト生成技術を用いて,現在のプログラム動作をテストケースの形でキャプチャし,その後にLCMベースのコード推論を用いて,文書内のプログラム仕様に整合しない回帰テストのオーラクルを識別する手法を提案する。 MeTAMONはこのタスクでメタモルフィックテストと自己整合性によってサポートされている。 Defects4J v2.0.1の5つのオープンソースプロジェクトを使って生成された9,482対のコードドキュメンテーションとコードスニペットに対する実証的な評価は、METAMONがコードとドキュメントの不整合を精度0.72、リコール0.48で分類できることを示している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Codetations: Intelligent, Persistent Notes and UIs for Programs and Other Documents [0.85830154886823]
Codetationsは、開発者がリッチなノートやツールで文書をコンテキスト化するのを助けるシステムです。以前のアプローチとは異なり、Codetationsのノートはドキュメントの外に留まり、コードの乱雑さを防ぎ、ハイブリッドな編集追跡/LLMベースのメソッドを使用してドキュメント内のスパンにアタッチする。彼らのコンテンツは動的でインタラクティブで、コードの変更と同期しています。
論文参考訳（メタデータ） (2025-04-25T21:33:25Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文参考訳（メタデータ） (2024-11-03T02:47:03Z)
Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文参考訳（メタデータ） (2024-05-22T19:02:50Z)
Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。 CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文参考訳（メタデータ） (2024-03-25T14:07:27Z)
Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文参考訳（メタデータ） (2024-02-21T04:10:12Z)
GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。 GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。 GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文参考訳（メタデータ） (2024-02-19T21:45:55Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
FLAG: Finding Line Anomalies (in code) with Generative AI [18.612900041820875]
FLAGは、生成AIの語彙能力、特にLarge Language Models(LLM)に基づいている。 C、Python、Verilogで121のベンチマークを使用します。 FLAGは101の欠陥を識別でき、検索スペースを12-17%に削減できる。
論文参考訳（メタデータ） (2023-06-22T03:04:56Z)
Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。 ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文参考訳（メタデータ） (2022-11-17T07:04:11Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。