論文の概要: Tool Learning Needs Nothing More Than a Free 8B Language Model
- arxiv url: http://arxiv.org/abs/2604.17739v1
- Date: Mon, 20 Apr 2026 02:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.668538
- Title: Tool Learning Needs Nothing More Than a Free 8B Language Model
- Title(参考訳): 無料の8B言語モデル以上のツール学習は必要ない
- Authors: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Junqiang Zheng, Saiyong Yang, Yunfang Wu,
- Abstract要約: フリーなオープンソースLMで完全にシミュレートされた動的環境を持つデータフリーなメソッド訓練ツールであるTRUSTEEを提案する。
我々の経験的結果は、TRUSTEEが様々な領域で一貫した改善をもたらすことを示している。
提案するパラダイムが,限られた資源による環境スケーリングの今後の研究を刺激することを期待している。
- 参考スコア(独自算出の注目度): 12.599730114745027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a prevalent paradigm for training tool calling agents, which typically requires online interactive environments. Existing approaches either rely on training data with ground truth annotations or require advanced commercial language models (LMs) to synthesize environments that keep fixed once created. In this work, we propose TRUSTEE, a data-free method training tool calling agents with dynamic environments fully simulated by free open-source LMs that can be as small as 8B, including task generation, user simulation, tool simulation and trajectory evaluation, paired with an adaptive curriculum learning mechanism that controls various aspects of the task difficulty dynamically during training. Our empirical results show that TRUSTEE brings consistent improvements across various domains and outperforms all the baselines which require extra external resources for training. These confirm that, with a sufficiently sophisticated design, even simulated environments with a local 8B LM as the backbone could set a strong baseline for tool learning, without expensive annotated data, realistic human interactions, executable tools or costly verifiable environments from human experts or commercial LMs. We hope our proposed paradigm could inspire future research on environment scaling with limited resources.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、オンラインの対話環境を必要とするエージェントを訓練するための一般的なパラダイムとなっている。
既存のアプローチは、基礎となる真実のアノテーションによるトレーニングデータに依存するか、あるいは一度修正された環境を合成するために高度な商用言語モデル(LM)を必要とする。
本研究では,タスク生成,ユーザシミュレーション,ツールシミュレーション,トラジェクトリ評価を含む8Bまで小さいオープンソースLMで,動的環境を完全にシミュレートしたデータフリーなメソッド学習エージェントであるTRUSTEEと,トレーニング中のタスクの難易度を動的に制御する適応型カリキュラム学習機構を組み合わせて提案する。
実験の結果、TRUSTEEは様々なドメインに一貫した改善をもたらし、トレーニングに余分な外部リソースを必要とするベースラインをすべて上回ります。
これらは十分に洗練された設計で、ローカルな8B LMをバックボーンとしてシミュレートした環境でさえ、高価な注釈付きデータ、リアルなヒューマンインタラクション、実行可能なツール、人間の専門家や商用のLMからの高価な検証可能な環境なしで、ツール学習の強力なベースラインを設定することができることを確認している。
提案するパラダイムが,限られた資源による環境スケーリングの今後の研究を刺激することを期待している。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。