論文の概要: Agentic Rubrics as Contextual Verifiers for SWE Agents
- arxiv url: http://arxiv.org/abs/2601.04171v1
- Date: Wed, 07 Jan 2026 18:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.716196
- Title: Agentic Rubrics as Contextual Verifiers for SWE Agents
- Title(参考訳): SWEエージェントの文脈検証としてのエージェントルーブリック
- Authors: Mohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He,
- Abstract要約: 本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
- 参考スコア(独自算出の注目度): 8.469998524915818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verification is critical for improving agents: it provides the reward signal for Reinforcement Learning and enables inference-time gains through Test-Time Scaling (TTS). Despite its importance, verification in software engineering (SWE) agent settings often relies on code execution, which can be difficult to scale due to environment setup overhead. Scalable alternatives such as patch classifiers and heuristic methods exist, but they are less grounded in codebase context and harder to interpret. To this end, we explore Agentic Rubrics: an expert agent interacts with the repository to create a context-grounded rubric checklist, and candidate patches are then scored against it without requiring test execution. On SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score of 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, with at least a +3.5 percentage-point gain over the strongest baseline in our comparison set. We further analyze rubric behavior, showing that rubric scores are consistent with ground-truth tests while also flagging issues that tests do not capture. Our ablations show that agentic context gathering is essential for producing codebase-specific, unambiguous criteria. Together, these results suggest that Agentic Rubrics provide an efficient, scalable, and granular verification signal for SWE agents.
- Abstract(参考訳): 強化学習のための報酬信号を提供し、テスト時間スケーリング(TTS)による推論時間ゲインを可能にする。
ソフトウェアエンジニアリング(SWE)のエージェント設定の検証は、その重要性にもかかわらず、多くの場合、コード実行に依存している。
パッチ分類器やヒューリスティックメソッドのようなスケーラブルな代替手段は存在するが、コードベースのコンテキストでは基礎が低く、解釈が難しい。
この目的のために、Agentic Rubrics: 専門家エージェントがリポジトリと対話してコンテキストグラウンドのルーリックチェックリストを作成し、テスト実行を必要とせずに候補パッチがそれに対してスコア付けされる。
SWE-Bench Verified under parallel TTS evaluation, Agentic Rubrics achieve a score 54.2% on Qwen3-Coder-30B-A3B and 40.6% on Qwen3-32B, at least a +3.5%-point gain over the highest baseline in our comparison set。
さらに,ルーブリックの挙動を解析し,ルーブリックのスコアが接地試験と整合性を示すとともに,テストが捉えない問題をフラグ付けすることを示した。
コードベース固有の明確な基準を作成するためには,エージェントによるコンテキスト収集が不可欠であることを示す。
これらの結果は,SWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示唆している。
関連論文リスト
- AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2026-03-04T06:17:51Z) - TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Issue-Oriented Agent-Based Framework for Automated Review Comment Generation [15.04868140672973]
RevAgentは、コードレビューコメントのための新しいエージェントベースのイシュー指向フレームワークである。
タスクは生成、識別、訓練の3段階に分けられる。
最先端のPLMとLMベースのベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-01T11:44:11Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。