論文の概要: R2V Agent: Teaching SLMs When to Ask for Help
- arxiv url: http://arxiv.org/abs/2605.16604v1
- Date: Fri, 15 May 2026 20:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.797993
- Title: R2V Agent: Teaching SLMs When to Ask for Help
- Title(参考訳): R2Vエージェント:SLMにいつ助けを求めるべきかを教える
- Authors: Raghu Vamshi Hemadri, Humaira Firdowse Mohammed, Rishabh Maheshwary, Srivatsava Daruru, Sagar Davasam, Vikas Yadav, Srinivas Sunkara, Sai Rajeswar,
- Abstract要約: 対話型エージェントのためのリスク校正型SLM-LLMルーティングフレームワークである textbfR2V-Agent を紹介する。
R2Vは、蒸留された小型言語モデル (SLM) ポリシー、より強力な教師 LLM、各ステップで候補アクションをスコアする軽量プロセス検証器、およびキャリブレーションされたステップレベルのルータの4つのコンポーネントを組み合わせている。
- 参考スコア(独自算出の注目度): 13.959667066774124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient agentic systems should incur expensive frontier-model costs only on decisions where a cheaper local model is likely to fail. Existing LLM cascades usually route whole queries before execution, but task difficulty shifts mid-trajectory - after flaky tool calls, truncated observations, or compounding local errors - making pre-execution routing brittle. We introduce \textbf{R2V-Agent}, a risk-calibrated SLM-LLM routing framework for interactive agents. R2V combines four components: a distilled small language model (SLM) policy, a stronger teacher LLM, a lightweight process verifier that scores candidate actions at each step, and a calibrated step-level router. The router is our central contribution: after the SLM is trained, it estimates residual failure risk at each step and escalates only when teacher intervention is warranted. To make the routing problem well-defined, we first train a stable local SLM using a standard offline pipeline: behavioral cloning (BC) on teacher trajectories, followed by verifier-guided Direct Preference Optimization (DPO) with consistency regularization. The router is then trained on this fixed policy's residual failures using Brier-calibrated probability estimation and a Conditional Value-at-Risk (CVaR)-constrained objective that penalizes worst-case failures across perturbation seeds. Across HumanEval+, TextWorld, and TerminalBench with four SLM backbones, R2V improves the reliability-cost frontier: it achieves $94.3\%$ HumanEval+ success with $0.60\%$ LLM escalation, recovers TextWorld from $64.6\%$ SLM-only success to $98.2\%$ at $41.7\%$ escalation, and reaches $93.3\%$ TerminalBench success at $33.9\%$ LLM calls, roughly half the heuristic-router cost.
- Abstract(参考訳): 効率的なエージェントシステムは、安価なローカルモデルが失敗する可能性のある決定にのみ、高価なフロンティアモデルコストを発生させるべきである。
既存のLLMカスケードは通常、実行前に全クエリをルーティングするが、タスクの難易度は、不安定なツールコール、トランケートされた観察、あるいはローカルエラーを複雑化するなど、実行前のルーティングが不安定になる。
本稿では,対話型エージェントのためのリスク校正型 SLM-LLM ルーティングフレームワークである \textbf{R2V-Agent} を紹介する。
R2Vは、蒸留された小型言語モデル (SLM) ポリシー、より強力な教師 LLM、各ステップで候補アクションをスコアする軽量プロセス検証器、およびキャリブレーションされたステップレベルのルータの4つのコンポーネントを組み合わせている。
ルータは私たちの中心的な貢献であり、SLMが訓練された後、各ステップで残余の失敗リスクを推定し、教師の介入が保証された場合にのみエスカレートします。
ルーティング問題を適切に定義するために、我々はまず、教師軌道上の行動クローン(BC)と、整合性正規化を伴う検証者誘導直接参照最適化(DPO)を用いて、標準的なオフラインパイプラインを用いて安定したローカルSLMを訓練する。
ルータは、ブライア校正確率推定とコンディショナルバリュー・アット・リスク(CVaR)制約された目標を用いて、この固定されたポリシーの残差障害に基づいてトレーニングされる。
Across HumanEval+, TextWorld, TerminalBench with four SLM backbones, R2V achieveds 9.3\%$ HumanEval+ success with $0.60\%$ LLM escalation, recoverys TextWorld from 6,6\%$ SLM-only success from 9,8.2\% at 4,11.7\%$ escalation, and reach 93.3\%$ TerminalBench success at 33.9\%$ LLM call, almost half the heuristic-router cost。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。
本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。
2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文 参考訳(メタデータ) (2026-03-25T22:24:11Z) - Graph-Based Self-Healing Tool Routing for Cost-Efficient LLM Agents [0.0]
自己修復ルータはフォールトトレラントなオーケストレーションアーキテクチャである。
ほとんどのエージェント制御フロー決定を、推論よりもルーティングとして扱う。
すべての障害はログ化されたリルートか明示的なエスカレーションのどちらかで、無音スキップはしない。
論文 参考訳(メタデータ) (2026-03-02T07:21:15Z) - Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA [16.758340727602793]
TQA(Table Question Answering)は、構造化テーブル上の自然言語質問に答えることを目的としている。
大規模言語モデル(LLM)は、最先端のパフォーマンスを提供するマルチステップ方式でテーブル操作パイプラインを生成する演算子中心のソリューションによって、この問題に対する有望な解決策を可能にする。
我々は,TQAのための高品質なデータ準備パイプラインを単一推論ステップで作成するために,新しい改良型強化学習を通じて軽量LLMを訓練する最初のフレームワークであるOperation-R1を提案する。
論文 参考訳(メタデータ) (2026-02-26T07:49:50Z) - R2-Router: A New Paradigm for LLM Routing with Reasoning [58.929817721828194]
R2-は既存のルータに比べて4~5倍のコストで最先端性能を実現する。
ルータはリアクティブセレクタから故意の推論器へと進化する。
論文 参考訳(メタデータ) (2026-02-02T21:23:51Z) - Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference [7.865726406769634]
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。
LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。
シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
論文 参考訳(メタデータ) (2026-01-29T18:52:54Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - MasRouter: Learning to Route LLMs for Multi-Agent Systems [14.029698552632107]
LLM(Large Language Models)をベースとしたマルチエージェントシステムは,LLM機能の境界を推し進めることが実証されている。
現在のルーティング手法は、クエリ毎にLLM選択をカスタマイズすることで、単一エージェントシナリオのオーバーヘッドを効果的に削減する。
まず、MASのすべてのコンポーネントを統一的なルーティングフレームワークに統合するマルチエージェントルーティングシステム(MASR)の問題を紹介する。
Mas is a high-perform, achieve a $1.8%sim8.2%$ improve over the state-of-the-art method on MBPP; 2) Economical, reduce overhead to up 52.07%$ than S.
論文 参考訳(メタデータ) (2025-02-16T14:00:59Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。