論文の概要: From Program Slices to Causal Clarity: Evaluating Faithful, Actionable LLM-Generated Failure Explanations via Context Partitioning and LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2604.18309v1
- Date: Mon, 20 Apr 2026 14:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.926381
- Title: From Program Slices to Causal Clarity: Evaluating Faithful, Actionable LLM-Generated Failure Explanations via Context Partitioning and LLM-as-a-Judge
- Title(参考訳): プログラムスライスから因果的明確性: コンテキスト分割とLCM-as-a-Judgeによる忠実で行動可能なLCM生成障害説明の評価
- Authors: Julius Porbeck, Christian Medeiros Adriano, Holger Giese,
- Abstract要約: 誤解を招く説明は下流のタスクには有害である(例えば、バグトリアージ、バグ修正など)。
本研究では,様々なコンテキスト構成による説明品質への影響について検討する。
- 参考スコア(独自算出の注目度): 0.2230291569252836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based debugging systems can generate failure explanations, but these explanations may be incomplete or incorrect. Misleading explanations are harmful for downstream tasks (e.g., bug triage, bug fixing). We investigate how explanation quality is affected by various LLM context configurations. Existing work predominantly treats LLM-generated failure explanations as an ad hoc by-product of debugging or repair workflows, using generic prompting over undifferentiated artifacts such as code, tests, and error messages rather than targeting explanations as a first-class output with dedicated quality assessment. Consequently, existing approaches provide limited support for assessing whether these explanations capture the underlying fault-error-failure mechanism and for actionable next steps, and most techniques instead prioritize task success (e.g., patch correctness or review quality) over the explicit causal explanation quality. We systematically vary the debugging information to study how distinct context compositions affect the quality of LLM-generated failure explanations. Across 93 context configurations on real bugs and three economically viable models (gpt-5-mini, DeepSeek-V3.2, and Grok-4.1-fast), we evaluate explanations with six criteria and validate the LLM-as-a-judge scores against human ratings in a user study. Our results indicate that explanation quality is causally affected by context composition. Evidence-rich, failure-specific artifacts improve causal and action-oriented quality, whereas overly large contexts tend to yield vague explanations. Higher explanation-score quartiles are associated with higher downstream repair pass rates and, for some models, with fixes that are closer to the reference minimal fixes. In contrast, low-score quartiles can even underperform the no-explanation baseline. Reproduction package is publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのデバッグシステムは、失敗の説明を生成することができるが、これらの説明は不完全または誤りである。
誤解を招く説明は下流のタスク(例:バグトリアージ、バグ修正)には有害である。
本研究では,LLMのコンテキスト構成が品質に与える影響について検討する。
既存の作業は、コード、テスト、エラーメッセージといった未分化のアーティファクトを、専用の品質評価を備えたファーストクラスのアウトプットとしてではなく、ジェネリックプロンプトを使用して、デバッグや修正ワークフローの副産物としてLLM生成の障害説明を主に扱う。
その結果、既存のアプローチでは、これらの説明が基盤となるフォールトエラー障害メカニズムをキャプチャし、実行可能な次のステップを判断するための限定的なサポートを提供しており、ほとんどのテクニックは、明確な因果的説明品質よりもタスクの成功(例えば、パッチの正確性やレビューの品質)を優先する。
デバッグ情報を体系的に変更し、異なるコンテキスト構成がLLM生成障害説明の品質にどのように影響するかを調査する。
実際のバグと経済的に実行可能な3つのモデル(gpt-5-mini、DeepSeek-V3.2、Grok-4.1-fast)に関する93のコンテキスト構成を6つの基準で評価し、人間の評価に対するLCM-as-a-judgeスコアをユーザスタディで検証した。
以上の結果から,説明品質は文脈構成に因果関係があることが示唆された。
エビデンスに富み、失敗固有の成果物は因果的およびアクション指向の質を改善するが、過度に大きなコンテキストはあいまいな説明をもたらす傾向がある。
より高説明スコアのクォータイルは、下流の修理パス率が高く、一部のモデルでは、参照最小限の修正に近く修正されている。
対照的に、低スコアの石英は、非説明ベースラインを過小評価することもある。
再生産パッケージは公開されている。
関連論文リスト
- METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models [61.33372454250959]
コンテキスト因果推論は、大規模言語モデルにとって重要なが難しい能力である。
既存のベンチマークでは、コンテキスト整合性を保証するか、完全な因果階層をカバーすることができない。
私たちはMETERの先駆者であり、因果はしごの3つのレベルすべてにわたってLSMを体系的にベンチマークしました。
論文 参考訳(メタデータ) (2026-04-13T14:07:11Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。
遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文 参考訳(メタデータ) (2026-01-17T20:32:18Z) - Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。
包括的なエラー解析と手動分類を行う。
その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T11:02:32Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization [5.7821087202452]
本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。
私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
論文 参考訳(メタデータ) (2024-03-15T17:47:20Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。