論文の概要: Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
- arxiv url: http://arxiv.org/abs/2509.23285v2
- Date: Tue, 30 Sep 2025 02:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.392964
- Title: Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
- Title(参考訳): 自己進化型推論学習による効果的なツール統合推論に向けて
- Authors: Yifei Chen, Guanting Dong, Zhicheng Dou,
- Abstract要約: Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
- 参考スコア(独自算出の注目度): 68.89572566071575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-Integrated Reasoning (TIR) enables large language models (LLMs) to improve their internal reasoning ability by integrating external tools. However, models employing TIR often display suboptimal behaviors, such as insufficient or excessive tool usage and overthinking after tool calls. The challenge of incentivizing LLMs to perform TIR efficiently and accurately, while stabilizing the reasoning process, remains an open question. In this paper, we start by exploring the impact of tool calls on model reasoning from the perspective of information entropy. Our findings indicate that tool call results lead to a distinct change in the information entropy of subsequent reasoning, with the overall entropy of the reasoning chain varying based on the number of tool calls. Building on these insights, we propose Tool-Light, a framework designed to encourage LLMs to perform TIR efficiently and accurately. Our framework includes dataset construction and multi-stage fine-tuning. For dataset construction, we employ continuous self-evolved sampling using the fine-tuned model, integrating both vanilla sampling and entropy-guided sampling. Besides, we establish strict criteria for selecting positive-negative pairs during sampling. The training process involves a two-stage approach, comprising Supervised Fine-Tuning (SFT) and Self-Evolved Direct Preference Optimization (DPO). Experimental results on 10 datasets demonstrate the effectiveness of Tool-Light, significantly improving the model's efficiency in executing TIR tasks.
- Abstract(参考訳): Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
しかしながら、TIRを用いたモデルでは、ツール使用不足や過剰なツール使用、ツール呼び出し後の過度な考えなど、過度な行動を示すことが多い。
LLMのTIRの効率と精度を向上する上での課題は、推論プロセスの安定化にあるが、未解決の問題である。
本稿では,情報エントロピーの観点から,ツールコールがモデル推論に与える影響を検討することから始める。
以上の結果から,ツールコールの結果がその後の推論の情報エントロピーに顕著な変化をもたらすことが示唆された。
これらの知見に基づいて,LLMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークであるTool-Lightを提案する。
私たちのフレームワークには、データセットの構築とマルチステージファインチューニングが含まれています。
データセット構築には,バニラサンプリングとエントロピー誘導サンプリングを併用した細調整モデルを用いて,連続的な自己進化サンプリングを用いる。
さらに,サンプリング中に正負のペアを選択するための厳格な基準を確立する。
トレーニングプロセスには、Supervised Fine-Tuning (SFT)とSelf-Evolved Direct Preference Optimization (DPO)という2段階のアプローチが含まれる。
10のデータセットに対する実験結果は、ツールライトの有効性を示し、TIRタスクの実行におけるモデルの効率を大幅に改善した。
関連論文リスト
- Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。