論文の概要: Agentic Rubrics as Contextual Verifiers for SWE Agents
- arxiv url: http://arxiv.org/abs/2601.04171v1
- Date: Wed, 07 Jan 2026 18:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.716196
- Title: Agentic Rubrics as Contextual Verifiers for SWE Agents
- Title(参考訳): SWEエージェントの文脈検証としてのエージェントルーブリック
- Authors: Mohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He,
- Abstract要約: 本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
- 参考スコア(独自算出の注目度): 8.469998524915818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.
- Abstract(参考訳): 強化学習のための報酬信号を提供し、テスト時間スケーリング(TTS)による推論時間ゲインを可能にする。
ソフトウェアエンジニアリング(SWE)のエージェント設定の検証は、その重要性にもかかわらず、多くの場合、コード実行に依存している。
パッチ分類器やヒューリスティックメソッドのようなスケーラブルな代替手段は存在するが、コードベースのコンテキストでは基礎が低く、解釈が難しい。
この目的のために、Agentic Rubrics: 専門家エージェントがリポジトリと対話してコンテキストグラウンドのルーリックチェックリストを作成し、テスト実行を必要とせずに候補パッチがそれに対してスコア付けされる。
SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, at least a +3.5%-point gain over the highest baseline in our comparison set。
さらに,ルーブリックの挙動を解析し,ルーブリックのスコアが接地試験と整合性を示すとともに,テストが捉えない問題をフラグ付けすることを示した。
コードベース固有の明確な基準を作成するためには,エージェントによるコンテキスト収集が不可欠であることを示す。
これらの結果は,SWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示唆している。
関連論文リスト
- VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。