論文の概要: Does Pass Rate Tell the Whole Story? Evaluating Design Constraint Compliance in LLM-based Issue Resolution
- arxiv url: http://arxiv.org/abs/2604.05955v1
- Date: Tue, 07 Apr 2026 14:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.892029
- Title: Does Pass Rate Tell the Whole Story? Evaluating Design Constraint Compliance in LLM-based Issue Resolution
- Title(参考訳): パスレートは全体ストーリーを伝えるか? LLMによる課題解決における設計制約適合性の評価
- Authors: Kai Yu, Zhenhao Zhou, Junhao Zeng, Ying Wang, Xueying Du, Zhiqiang Yuan, Junwei Liu, Ziyu Zhou, Yujia Wang, Chong Wang, Xin Peng,
- Abstract要約: 本稿では,設計制約を明示的かつ測定可能なベンチマークとして,テキストデザイン対応の課題解決とベンチマークを提案する。
実際のプルリクエストから設計制約をマイニングし、検証し、それらをイシューインスタンスにリンクし、パッチのコンプライアンスを自動的にチェックすることで、Standardは構築される。
最先端エージェントによる実験では、テストベースの正確性はパッチの品質を大幅に過大評価している。
- 参考スコア(独自算出の注目度): 30.746287235443813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repository-level issue resolution benchmarks have become a standard testbed for evaluating LLM-based agents, yet success is still predominantly measured by test pass rates. In practice, however, acceptable patches must also comply with project-specific design constraints, such as architectural conventions, error-handling policies, and maintainability requirements, which are rarely encoded in tests and are often documented only implicitly in code review discussions. This paper introduces \textit{design-aware issue resolution} and presents \bench{}, a benchmark that makes such implicit design constraints explicit and measurable. \bench{} is constructed by mining and validating design constraints from real-world pull requests, linking them to issue instances, and automatically checking patch compliance using an LLM-based verifier, yielding 495 issues and 1,787 validated constraints across six repositories, aligned with SWE-bench-Verified and SWE-bench-Pro. Experiments with state-of-the-art agents show that test-based correctness substantially overestimates patch quality: fewer than half of resolved issues are fully design-satisfying, design violations are widespread, and functional correctness exhibits negligible statistical association with design satisfaction. While providing issue-specific design guidance reduces violations, substantial non-compliance remains, highlighting a fundamental gap in current agent capabilities and motivating design-aware evaluation beyond functional correctness.
- Abstract(参考訳): リポジトリレベルの課題解決ベンチマークは、LSMベースのエージェントを評価するための標準的なテストベッドとなっているが、それでもテストパス率によって測定される。
しかし実際には、許容されるパッチは、アーキテクチャの慣習、エラー処理ポリシー、保守性要件といった、プロジェクト固有の設計上の制約にも従わなければならない。
本稿では, 暗黙的な設計制約を明確にし, 測定可能なベンチマークである \bench{} を紹介する。
\bench{}は、現実世界のプルリクエストから設計上の制約をマイニングし、イシューインスタンスにリンクし、LLMベースの検証ツールを使用してパッチコンプライアンスを自動的にチェックすることで、SWE-bench-VerifiedとSWE-bench-Proに合わせた6つのリポジトリで495のイシューと1,787の検証済みの制約を発生させる。
最先端のエージェントによる実験では、テストベースの正しさはパッチの品質を著しく過大評価している。解決された問題の半分以下は完全な設計満足度であり、設計違反は広く、機能的正しさは設計満足度と無視できる統計的関連を示す。
問題固有の設計ガイダンスを提供することは違反を減らすが、実質的な非コンプライアンスは残っており、現在のエージェント能力の根本的なギャップを強調し、機能的正当性を超えた設計意識評価を動機付けている。
関連論文リスト
- Beyond Fixed Tests: Repository-Level Issue Resolution as Coevolution of Code and Behavioral Constraints [17.818522356206977]
ほとんどの大規模言語モデル(LLM)ベースの修復システムは、修理中に固定された動作制約を扱います。
本稿では,Agent-CoEvoを提案する。Agent-CoEvoは共進化的マルチエージェントフレームワークで,候補コードパッチとテストパッチを共同で探索し,洗練する。
Agent-CoEvoは、修復の成功と再現性の両方において、最先端のエージェントベースとエージェントレスベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-06T10:26:46Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain [0.0]
品質駆動型推論時間スキャフォールドであるQoTを導入し,ユーザ目標をエンジニアリングステップの順序付きシーケンスに変換する。
QoTは、API設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング領域にまたがって評価する。
論文 参考訳(メタデータ) (2026-03-10T23:49:09Z) - Are LLMs Reliable Code Reviewers? Systematic Overcorrection in Requirement Conformance Judgement [8.059802912761919]
我々は,大規模言語モデル(LLM)が自然言語要求にマッチするコードの体系的失敗を明らかにする。
より詳細なプロンプト設計、特に説明や修正提案を必要とするものは、より高い誤判定率をもたらす。
そこで本稿では,提案した修正を実効的証拠として扱う固定誘導検証フィルタを提案する。
論文 参考訳(メタデータ) (2026-02-28T08:35:25Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - Diagnosis via Proofs of Unsatisfiability for First-Order Logic with Relational Objects [1.6727186769396274]
満足度に基づく自動推論は、ソフトウェア工学において複雑なソフトウェアを検証するのに成功している。
我々は、FOL*不満足な結果の正しさを検証するという課題に取り組む。
我々は,不満足の原因を説明するために,証明に基づく診断法を開発した。
論文 参考訳(メタデータ) (2024-09-13T22:25:58Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。