論文の概要: RubricRefine: Improving Tool-Use Agent Reliability with Training-Free Pre-Execution Refinement
- arxiv url: http://arxiv.org/abs/2605.09730v3
- Date: Fri, 15 May 2026 19:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.238686
- Title: RubricRefine: Improving Tool-Use Agent Reliability with Training-Free Pre-Execution Refinement
- Title(参考訳): RubricRefine: トレーニング不要プレ実行リファインメントによるツール・ユース・エージェントの信頼性の向上
- Authors: Will LeVine, Brendan Evers, Sam Saltwick, Abhay Venkatesh,
- Abstract要約: 反復自己複製は、推論時の信頼性技術として人気がある。
しかし、コードモードツールの使用効率はフィードバック信号の構造に大きく依存する。
本稿では,事前実行型セマンティックコントラクト検証のためのトレーニング不要な手法Refineを紹介する。
- 参考スコア(独自算出の注目度): 0.36165327398913766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative self-refinement is a popular inference-time reliability technique, but its effectiveness in code-mode tool use depends heavily on the structure of the feedback signal: unstructured critique helps inconsistently across models, and even revision with real execution feedback improves only modestly ($0.75$ vs. $0.65$ baseline). The dominant failures are inter-tool contract violations (wrong output shape, incorrect tool routing, broken argument provenance) that run to completion without raising errors, making runtime feedback insufficient. We introduce RubricRefine, a training-free method for pre-execution semantic contract verification that generates task- and registry-specific rubrics, scores candidate code against explicit contract checks, and iteratively repairs failures before any execution occurs. RubricRefine reaches $0.86$, averaged across seven models, on M3ToolEval with zero execution attempts, improving over prior inference-time baselines with up to $2.6\times$ lower latency. Performance remains flat on the predominantly single-step API-Bank, consistent with the method's reliance on inter-tool contract structure. A rubric-category ablation and calibration analysis further characterize when and why the method works.
- Abstract(参考訳): 反復的な自己修正は一般的な推論時の信頼性技術であるが、コードモードツールの使用の有効性はフィードバック信号の構造に大きく依存している。
主な失敗は、エラーを発生させることなく完了まで実行し、実行時のフィードバックが不十分な、ツール間のコントラクト違反(短い出力形式、間違ったツールルーティング、壊れた引数の証明)である。
本稿では、タスクやレジストリ固有のルーリックを生成し、明示的なコントラクトチェックに対して候補コードをスコアし、実行前に失敗を反復的に修復する、事前実行セマンティックコントラクト検証のトレーニング不要な方法であるRubricRefineを紹介する。
RubricRefineは7つのモデルで平均0.86ドルに達し、M3ToolEvalでは実行をゼロにし、推論時のベースラインを最大2.6\times$低レイテンシで改善した。
パフォーマンスは、メソッドがツール間のコントラクト構造に依存しているように、主に単一ステップのAPI-Bankに偏っている。
ルーブリックカテゴリーのアブレーションとキャリブレーション分析は、いつ、なぜその方法が機能するのかをさらに特徴付ける。
関連論文リスト
- RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics [15.131840310228712]
RIFT(英: RIFT)は、ルブリック合成と設計において、障害モードを体系的に特徴付ける分類法である。
RIFTは信頼性障害(Reliability Failures)、コンテンツ妥当性障害(Content Validity Failures)、連続妥当性障害(Consequential Validity Failures)の3つの高いカテゴリに分類される8つの障害モードで構成されている。
論文 参考訳(メタデータ) (2026-04-01T20:34:43Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - GRETEL: A Goal-driven Retrieval and Execution-based Trial Framework for LLM Tool Selection Enhancing [6.790345342526922]
GRETELは、サンドボックス化された計画実行評価サイクルを通じてセマンティックに検索された候補を処理するエージェントワークフローを実装している。
ToolBenchベンチマークに関する包括的な評価は、すべてのメトリクスで大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2025-10-10T00:12:51Z) - Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions [10.598440138966028]
現在の自己回帰のプラクティスは、プロンプトや一方的な推論に依存しています。
提案する構造的リフレクションは, エラーから修復までの経路を明示的で制御可能な, 訓練可能な動作に変換する。
BFCL v3とTool-Reflection-Benchの実験では、マルチターンツールコールの成功とエラー回復、冗長呼び出しの削減が大幅に向上した。
論文 参考訳(メタデータ) (2025-09-23T09:35:49Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。