Fugu-MT 論文翻訳(概要): On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

論文の概要: On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

arxiv url: http://arxiv.org/abs/2606.00135v1
Date: Thu, 28 May 2026 22:21:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:27.9952
Title: On Effectiveness and Efficiency of Agentic Tool-calling and RL Training
Title（参考訳）: エージェントツールコールとRLトレーニングの有効性と効果について
Authors: Tong Liu, Cheng Qian, Matej Cief, Yuan He, Daniele Dan, Nikolaos Aletras, Gabriella Kazai,
Abstract要約: 本稿では,2つの相補的軸に沿ったツールコールについて検討する。結果が、小さく、しばしば文書化されていない実装選択に非常に敏感であることを示します。本稿では,RLベースのツールコール訓練を加速し,性能を低下させることなくウォールクロックの大幅な高速化を実現する2つの手法を提案する。
参考スコア（独自算出の注目度）: 33.47538664943472
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tool-calling is a central component of modern large language model (LLM) agents, equipping them with skills beyond their parametric knowledge. This paper studies tool-calling along two complementary axes: effectiveness, i.e., how this capability is measured, and efficiency, i.e., how it is learned. On effectiveness, we systematically analyze tool-calling evaluation pipelines and show that results can be highly sensitive to seemingly minor, often undocumented implementation choices including the random seed, system prompt, multi-turn template construction, and how prior interaction/reasoning history is carried forward. These choices can lead to substantial differences in reported performance, especially in multi-turn settings where without rigorous standardization, leaderboard rankings are unreliable. On efficiency, we examine standard reinforcement learning (RL) for tool-calling and identify two sources of computational waste: (i) during rollouts, many prompts produce no learning signal, and (ii) during policy updates, optimization incurs high computational cost. Guided by these findings, we introduce two techniques that accelerate RL-based tool-calling training, achieving substantial wall-clock speedup without degrading performance.
Abstract（参考訳）: ツールコールは、現代の大規模言語モデル(LLM)エージェントの中心的なコンポーネントであり、パラメトリックな知識以上のスキルを備えている。本稿では,2つの相補的軸に沿ったツールコール,すなわち,その能力の計測方法,効率,すなわち学習方法について検討する。ツールコール評価パイプラインを体系的に解析し、ランダムなシード、システムプロンプト、マルチターンテンプレート構成、事前のインタラクション/推論履歴の進行など、あまり文書化されていない実装選択に対して非常に敏感な結果が得られることを示す。これらの選択は、特に厳格な標準化がなければ、リーダーボードのランキングが信頼できないマルチターン設定において、報告されたパフォーマンスに大きな違いをもたらす可能性がある。ツールコールのための標準強化学習(RL)を効率よく検討し,2つの計算廃棄物源を同定する。 (i)ロールアウト中、多くのプロンプトが学習信号を生成せず、 (II) ポリシー更新の間、最適化は高い計算コストを発生させる。これらの知見に導かれて,RLベースのツールコール訓練を加速する2つの手法を導入し,性能を低下させることなくウォールクロックの大幅な高速化を実現した。

関連論文リスト

Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement [16.192937389387982]
モデル固有の知識境界を動的に探索するオンライン手法であるAKBE(Agentic Knowledge boundary Enhancement)を提案する。 7つのQAベンチマークの実験では、AKBEはタスクの精度を平均で+1.85改善し、標準のエージェントRLよりも18%向上した。
論文参考訳（メタデータ） (2026-05-26T12:42:23Z)
Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model [12.851049183155482]
HIVEは、データ効率の強化学習のためのデュアルステージフレームワークである。我々は,HIVEが性能を損なうことなく,ロールアウト効率を著しく向上することを示す。
論文参考訳（メタデータ） (2026-03-26T08:52:35Z)
In-Context Reinforcement Learning for Tool Use in Large Language Models [68.66653829365187]
大規模言語モデル(LLM)は強力な推論能力を示すが、複雑なタスクにおける性能は内部知識によって制約されることが多い。 In-Context Reinforcement Learning (ICRL) を提案する。 ICRLは最先端のパフォーマンスを実現し、従来のSFTベースのパイプラインに代わるスケーラブルでデータ効率の高い代替手段としての有効性を示す。
論文参考訳（メタデータ） (2026-03-09T08:06:18Z)
Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning [26.401906729658688]
Agentic Reinforcement Learning (ARL) は、複雑なタスクを解決するために、推論と外部ツールの実行をインターリーブするために、大きな言語モデルをトレーニングすることに焦点を当てている。ほとんどの既存のARLメソッドは、推論とツールの使用行動の両方をサポートするために単一の共有モデルパラメータをトレーニングしている。これらの2つの能力は、しばしば不整合勾配方向を誘導し、共同最適化の有効性を損なう訓練の干渉を引き起こす。 DART(Disentangled Action Reasoning Tuning)は、推論のためのパラメータ更新とツール使用を分離したローランクで明示的に分離する、シンプルで効率的なフレームワークである。
論文参考訳（メタデータ） (2026-02-01T03:19:22Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。