論文の概要: Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
- arxiv url: http://arxiv.org/abs/2508.08791v1
- Date: Tue, 12 Aug 2025 09:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.37102
- Title: Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
- Title(参考訳): 自動ビルド環境による大規模言語モデルのフィードバック駆動ツール利用改善
- Authors: Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen,
- Abstract要約: 大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
- 参考スコア(独自算出の注目度): 39.351627468128214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective tool use is essential for large language models (LLMs) to interact meaningfully with their environment. However, progress is limited by the lack of efficient reinforcement learning (RL) frameworks specifically designed for tool use, due to challenges in constructing stable training environments and designing verifiable reward mechanisms. To address this, we propose an automated environment construction pipeline, incorporating scenario decomposition, document generation, function integration, complexity scaling, and localized deployment. This enables the creation of high-quality training environments that provide detailed and measurable feedback without relying on external tools. Additionally, we introduce a verifiable reward mechanism that evaluates both the precision of tool use and the completeness of task execution. When combined with trajectory data collected from the constructed environments, this mechanism integrates seamlessly with standard RL algorithms to facilitate feedback-driven model training. Experiments on LLMs of varying scales demonstrate that our approach significantly enhances the models' tool-use performance without degrading their general capabilities, regardless of inference modes or training algorithms. Our analysis suggests that these gains result from improved context understanding and reasoning, driven by updates to the lower-layer MLP parameters in models.
- Abstract(参考訳): 大規模言語モデル(LLM)が環境と意味のある相互作用を行うためには、効果的なツールの使用が不可欠である。
しかし、安定したトレーニング環境を構築し、検証可能な報酬メカニズムを設計することの難しさから、ツール用に特別に設計された効率的な強化学習(RL)フレームワークが欠如しているため、進歩は制限されている。
そこで本研究では,シナリオ分解,文書生成,機能統合,複雑性のスケーリング,ローカルデプロイメントを取り入れた自動環境構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
さらに,ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構を導入する。
構築された環境から収集された軌道データと組み合わせると、このメカニズムは標準のRLアルゴリズムとシームレスに統合され、フィードバック駆動モデルトレーニングが容易になる。
様々なスケールのLLM実験により,提案手法は,推論モードやトレーニングアルゴリズムに関わらず,汎用性を低下させることなく,モデルの利用ツールの性能を著しく向上させることを示した。
分析の結果, モデル内の低層MLPパラメータの更新により, 文脈理解と推論が改善されることが示唆された。
関連論文リスト
- AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。