Fugu-MT 論文翻訳(概要): Automated Repair of Ambiguous Natural Language Requirements

論文の概要: Automated Repair of Ambiguous Natural Language Requirements

arxiv url: http://arxiv.org/abs/2505.07270v1
Date: Mon, 12 May 2025 06:47:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.280115
Title: Automated Repair of Ambiguous Natural Language Requirements
Title（参考訳）: あいまいな自然言語要件の自動修復
Authors: Haoxiang Jia, Robbie Morris, He Ye, Federica Sarro, Sergey Mechtaev,
Abstract要約: あいまいなNL要求の自動修復の問題を紹介する。我々の重要な新規性は、この問題をメタ認知的推論を必要としないより単純なサブプロブレムに分解することである。この手法をSpecFixで実装し,3つのSOTA LLM, GPT-4o, DeepSeek-V3, Qwen2.5-Coder-32b-Instructを用いて評価する。
参考スコア（独自算出の注目度）: 9.379494157034083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rise of large language models (LLMs) has amplified the role of natural language (NL) in software engineering, and its inherent ambiguity and susceptibility to misinterpretation pose a fundamental challenge for software quality, because employing ambiguous requirements may result in the generation of faulty programs. The complexity of ambiguity detection and resolution motivates us to introduce the problem of automated repair of ambiguous NL requirements. Repairing ambiguity in requirements poses a challenge for LLMs, as it demands a metacognitive capability - the ability to reflect on how alterations to the text influence their own interpretation of this text. Indeed, our experiments show that directly prompting an LLM to detect and resolve ambiguities results in irrelevant or inconsistent clarifications. Our key novelty is in decomposing this problem into simpler subproblems which do not require metacognitive reasoning. First, we analyze and repair LLM's interpretation of requirements embodied in the distribution of programs they induce using traditional testing and program repair methods. Second, we repair requirements based on the changes to the distribution via what we refer to as contractive specification inference. This decomposition enables targeted, minimal requirement repairs that yield cross-model performance gains in code generation. We implemented this approach in a tool SpecFix, and evaluated it using three SOTA LLMs, GPT-4o, DeepSeek-V3 and Qwen2.5-Coder-32b-Instruct, across two widely-used code generation benchmarks: HumanEval+ and MBPP+. Our results show that SpecFix, operating autonomously without human intervention or external information, outputs repaired requirements that, when used by LLMs for code generation, increase the Pass@1 score by 4.3%, and help LLMs to solve 3.4% more problems via majority vote.
Abstract（参考訳）: 大規模言語モデル(LLM)の台頭は、ソフトウェア工学における自然言語(NL)の役割を増幅し、その固有の曖昧さと誤解釈への感受性は、不明瞭な要求を採用することによって欠陥プログラムが生成されるため、ソフトウェア品質に根本的な課題をもたらす。あいまいさの検出と解決の複雑さは、あいまいなNL要求を自動修復する問題を提起する動機となっている。要求のあいまいさを修復することは、LLMがメタ認知能力を必要とするため、このテキストに対する変更が自身の解釈にどのように影響するかを反映する能力である。実際、我々の実験は、LLMが曖昧さを検知し、解決するよう直接促すことは、無関係または矛盾した明確化をもたらすことを示している。我々の重要な新規性は、この問題をメタ認知的推論を必要としないより単純なサブプロブレムに分解することである。まず,従来のテスト手法とプログラム修復手法を用いて,プログラムを誘導するプログラムの分布に具現化されたLCMの要件解釈を分析し,修復する。第二に、私たちは、契約仕様推論(contractive specification inference)と呼ぶものを通して、配布の変更に基づいて要求を修復します。この分解により、コード生成においてクロスモデルパフォーマンスが向上する最小限の要件修正が可能になる。この手法を SpecFix で実装し,HumanEval+ と MBPP+ の2つの広く使用されているコード生成ベンチマークに対して,GPT-4o,DeepSeek-V3,Qwen2.5-Coder-32b-Instruct の3つのSOTA LLMを用いて評価した。我々の結果は、人間の介入や外部情報なしに自律的に運用されているSpecFixが、コード生成にLLMが使用する場合、Pass@1スコアを4.3%増加させ、LLMが多数決によって3.4%以上の問題を解決するのに役立ちます。

関連論文リスト

Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution [18.314436803012434]
本稿では,モンテカルロ木探索(MCTS)に基づく中間推論ステップの動的検証と最適化を行うMCTS-INEを提案する。 SWE-bench LiteとSWE-bench Verifiedの実験は、我々のCoTデータセットで微調整されたLLMがベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-06-15T05:42:01Z)
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction [4.304383298057423]
本稿では, 誤り前検出, 連鎖型サブタスク反復補正, 推論プロセス検証の3段階からなる信頼性補正フレームワーク(RLLM-CF)を提案する。 AISHELL-1, AISHELL-2, Librispeechの実験により, このフレームワークによって強化されたGPT-4oモデルは, CER/WERの相対減少率21%, 11%, 9%, 11.4%を達成した。
論文参考訳（メタデータ） (2025-05-30T08:40:49Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。 LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-11-23T09:40:36Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。感度はプロンプトの言い換えによる予測の変化を測るその代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文参考訳（メタデータ） (2024-06-18T06:59:24Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Enchanting Program Specification Synthesis by Large Language Models using Static Analysis and Program Verification [15.686651364655958]
AutoSpecは、自動プログラム検証のための仕様を合成するための自動化アプローチである。仕様の汎用性における既存の作業の欠点を克服し、完全な証明のために十分かつ適切な仕様を合成する。実世界のX509パーサプロジェクトでプログラムを検証するためにうまく適用することができる。
論文参考訳（メタデータ） (2024-03-31T18:15:49Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文参考訳（メタデータ） (2023-05-29T19:48:37Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。