論文の概要: ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
- arxiv url: http://arxiv.org/abs/2603.01620v3
- Date: Thu, 05 Mar 2026 10:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.168534
- Title: ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents
- Title(参考訳): ToolRLA: ツール統合エージェントの乗算逆分解
- Authors: Pengbo Liu,
- Abstract要約: ドメイン固有のツールエージェントのためのポストトレーニングパイプラインであるToolRLAを提案する。
コアコントリビューションは、乗法的正しさ分解を伴う微細な報酬関数である。
ToolRLAは3ヶ月以上、タスク完了率を47%改善している。
- 参考スコア(独自算出の注目度): 1.8379860135249093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated agents that interleave reasoning with API calls are promising for complex tasks, yet aligning them for high-stakes, domain-specific deployment remains challenging: existing reinforcement learning approaches rely on coarse binary rewards that cannot distinguish tool selection errors from malformed parameters. We present ToolRLA, a three-stage post-training pipeline (SFT -> GRPO -> DPO) for domain-specific tool agents. The core contribution is a fine-grained reward function with multiplicative correctness decomposition spanning four dimensions -- format validity, tool selection, parameter accuracy, and regulatory compliance -- that encodes domain priority orderings as inductive biases in the reward landscape. Deployed on a financial advisory copilot (80+ advisors, 1,200+ daily queries), ToolRLA achieves over three months: a 47% improvement in task completion rate (62%->91%), a 63% reduction in tool invocation errors (38%->14%), and a 93% reduction in regulatory violations (12%->0.8%), within sub-2-second latency. Ablation studies show the multiplicative reward design accounts for 7 percentage points of improvement over additive alternatives. Generalization is further validated on ToolBench and API-Bank.
- Abstract(参考訳): 既存の強化学習アプローチでは、ツール選択エラーと不正なパラメータを区別できない、粗いバイナリ報酬に依存しています。
ドメイン固有のツールエージェントのための3段階後トレーニングパイプライン(SFT -> GRPO -> DPO)であるToolRLAを提案する。
コアコントリビューションは、フォーマットの妥当性、ツールの選択、パラメータの正確性、規制コンプライアンスの4つの次元にまたがる乗法的正しさの分解を備えた、きめ細かい報酬関数である。
金融アドバイザリコパイロット(80以上のアドバイザリ、1200以上の日次クエリ)にデプロイされたToolRLAは、タスク完了率(62%->91%)の47%改善、ツール実行エラー(38%->14%)の63%削減、規制違反(12%->0.8%)の93%削減という、3ヶ月以上にわたって達成している。
アブレーション研究は、乗法的な報酬設計が加法的な代替よりも7パーセント改善したことを示している。
一般化はToolBenchとAPI-Bankでさらに検証されている。
関連論文リスト
- Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents [54.18201810286764]
LLM(Large Language Models)に基づくツール利用エージェントは、数学的推論やマルチホップ質問応答といったタスクに優れる。
長い道のりでは、エージェントはしばしば過度で低品質なツールコールをトリガーし、レイテンシを増大させ、推論性能を低下させる。
本稿では,エントロピー低減を監視信号として使用し,ツール使用行動の最適化ニーズに対処する2つの報奨戦略を設計する。
論文 参考訳(メタデータ) (2026-02-02T12:52:14Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z) - PALADIN: Self-Correcting Language Model Agents to Cure Tool-Failure Cases [2.3181214107210235]
PALADINは、系統的な障害注入によって構築された5万以上のリカバリアノテーション付き軌道を走行する。
トレーニングでは、LoRAベースの微調整を使用して、回復能力を注入しながらベース能力を維持する。
このアプローチは、トレーニング分布を超えた新しい失敗に一般化する。
論文 参考訳(メタデータ) (2025-09-25T10:37:30Z) - OR-Toolformer: Modeling and Solving Operations Research Problems with Tool Augmented Large Language Models [3.7202906625021934]
大規模言語モデル(LLM)は強い数学的推論を示す。
Llama-3.1-8B-Instructを半自動データ合成パイプラインで微調整するOR-Toolformerを導入する。
4つの標準ベンチマークのうち、OR-Toolformerは最大80.1%の実行精度を達成している。
論文 参考訳(メタデータ) (2025-09-24T14:42:40Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。