論文の概要: AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation
- arxiv url: http://arxiv.org/abs/2603.21362v1
- Date: Sun, 22 Mar 2026 18:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.37925
- Title: AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation
- Title(参考訳): AdaRubric: LLMエージェント評価のためのタスク適応型ルーブリック
- Authors: Liang Ding,
- Abstract要約: LLM-as-Judgeの評価は、固定されたルーリックがこのタスクにとって重要なものをキャプチャできないため、エージェントタスクに失敗する。
本稿では,タスク記述からタスク固有の評価文を生成するADARUBRICを提案する。
WebArenaとToolBenchでは、ADARUBRICはデプロイメントグレードの信頼性を備えた人間相関(最高の静的ベースラインに対する+0.16)を実現している。
- 参考スコア(独自算出の注目度): 12.42698406379544
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: LLM-as-Judge evaluation fails agent tasks because a fixed rubric cannot capture what matters for this task: code debugging demands Correctness and Error Handling; web navigation demands Goal Alignment and Action Efficiency. We present ADARUBRIC, which closes this gap by generating task-specific evaluation rubrics on the fly from task descriptions, scoring trajectories step-by-step with confidence-weighted per-dimension feedback, and filtering preference pairs with the novel DimensionAwareFilter - a provably necessary condition for preventing high-scoring dimensions from masking dimension-level failures. On WebArena and ToolBench, ADARUBRIC achieves Pearson r=0.79 human correlation (+0.16 over the best static baseline) with deployment-grade reliability (Krippendorff's $α$=0.83). DPO agents trained on ADARUBRIC preference pairs gain +6.8 to +8.5 pp task success over Prometheus across three benchmarks; gains transfer to SWE-bench code repair (+4.9 pp) and accelerate PPO convergence by +6.6 pp at 5K steps - both without any rubric engineering. Code: https://github.com/alphadl/AdaRubrics.
- Abstract(参考訳): LLM-as-Judge評価は、コードデバッグ要求とエラー処理、Webナビゲーション要求のゴールアライメントとアクション効率といった、このタスクにとって重要なことを、固定されたルーリックではキャプチャできないため、エージェントタスクをフェールさせる。
本稿では,タスク記述からタスク固有の評価ルーブリックを生成し,信頼度重み付き1次元フィードバックで段階的にトラジェクトリを評価し,さらにディメンションAwareFilterという新しいディメンションAwareFilterで選好ペアをフィルタリングすることで,このギャップを解消する。
WebArenaとToolBenchでは、ADARUBRICはPearson r=0.79の人間相関(最高の静的ベースラインに対する+0.16)とデプロイメントグレードの信頼性(Krippendorffの$α$=0.83)を達成している。
DPOエージェントはADARUBRICの選好ペアで訓練され、3つのベンチマークでPrometheusよりも+6.8から+8.5ppのタスクが成功し、SWEベンチのコード修復(+4.9pp)に移行し、5KステップでPPO収束を+6.6pp加速する。
コード:https://github.com/alphadl/AdaRubrics
関連論文リスト
- Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows [0.0]
Policy-First Toolingは、明示的な制約、リスク認識ゲーティング、リカバリコントロール、監査可能な説明を通じて、ツールの実行を仲介する。
制御された5つのポリシーパックと3つの障害プロファイルをまたいだ225の運用では、厳格なパックにより、違反防止はP0の0.000からP4の0.681に改善され、タスク成功は0.356から0.067に減少した。
論文 参考訳(メタデータ) (2026-03-18T01:19:33Z) - Surgical Post-Training: Cutting Errors, Keeping Knowledge [14.639241720055658]
手術後の訓練は、学習済みの事前知識を維持しながら推論を効率的に最適化するために設計されたパラダイムである。
4kの修正された数学データペアだけで、SPoTはQwen3-8Bの精度をドメイン内およびOODタスク全体で平均6.2%改善する。
論文 参考訳(メタデータ) (2026-03-02T10:12:56Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z) - Weights-Rotated Preference Optimization for Large Language Models [30.25242193651982]
本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点 で上回っている。
論文 参考訳(メタデータ) (2025-08-25T03:57:17Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。