論文の概要: In-Context Reinforcement Learning for Tool Use in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.08068v1
- Date: Mon, 09 Mar 2026 08:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.684604
- Title: In-Context Reinforcement Learning for Tool Use in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるツール活用のための文脈強化学習
- Authors: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh,
- Abstract要約: 大規模言語モデル(LLM)は強力な推論能力を示すが、複雑なタスクにおける性能は内部知識によって制約されることが多い。
In-Context Reinforcement Learning (ICRL) を提案する。
ICRLは最先端のパフォーマンスを実現し、従来のSFTベースのパイプラインに代わるスケーラブルでデータ効率の高い代替手段としての有効性を示す。
- 参考スコア(独自算出の注目度): 68.66653829365187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は強い推論能力を示すが、複雑なタスクにおける性能は内部知識の制限によって制約されることが多い。
この課題を克服するための魅力的なアプローチは、これらのモデルを、数学的計算のためのPythonインタプリタや、事実情報を検索するための検索エンジンなど、外部ツールで強化することである。
しかし、モデルがこれらのツールを効果的に利用できるようにすることは、依然として大きな課題である。
既存の手法は典型的には、教師付き微調整(SFT)から始まるコールドスタートパイプラインに依存し、続いて強化学習(RL)が続く。
これらのアプローチは、注釈付けや合成に費用がかかるSFTのラベル付きデータを必要とすることが多い。
In-Context Reinforcement Learning (ICRL) は,RLのロールアウト段階において,数発のプロンプトを活用することで,SFTの必要性を解消するフレームワークである。
具体的には、ICRLはロールアウトプロンプト内にコンテキスト内例を導入し、モデルに外部ツールの呼び出し方法を教える。
さらに、トレーニングが進むにつれて、コンテキスト内サンプルの数は徐々に減少し、最終的にモデルがツールを独立して呼び出すことを学習するゼロショット設定に到達します。
さまざまな推論やツール使用ベンチマークにまたがって、広範な実験を実施しています。
ICRLは,従来のSFTパイプラインに対して,スケーラブルでデータ効率のよい代替手段としての有効性を示す。
関連論文リスト
- Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Understanding Tool-Integrated Reasoning [9.235747697967984]
ツール統合推論がLarge Language Models(LLM)をより有能にする理由を考察する。
LLMはPythonのコードインタープリタのようなツールと統合されているが、なぜこのパラダイムが効果的であるかを説明する原則的な理論が欠落している。
我々は、ツールが経験的かつ実現可能なサポートを厳格に拡張し、純粋テキストモデルの能力天井を壊すことを実証した。
論文 参考訳(メタデータ) (2025-08-26T17:03:46Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Replacing thinking with tool usage enables reasoning in small language models [2.357055571094446]
近年の進歩は、推論時間とトレーニング時間における計算のスケールアップに基づく、新しい機械学習パラダイムを確立している。
本稿では,これらのトークンをステートフルツールを用いたマルチターンインタラクショントレースとしてフォーマットすることを提案する。
各ターンで、ツールの新しい状態がモデルのコンテキストに追加され、そのジョブはカスタムDSLを介してツールを制御するのに必要なトークンを生成する。
論文 参考訳(メタデータ) (2025-07-07T14:49:18Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。