論文の概要: Don't Just Fine-tune the Agent, Tune the Environment
- arxiv url: http://arxiv.org/abs/2510.10197v1
- Date: Sat, 11 Oct 2025 12:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.838762
- Title: Don't Just Fine-tune the Agent, Tune the Environment
- Title(参考訳): エージェントを微調整するな, 環境を微調整するな
- Authors: Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin,
- Abstract要約: 合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
- 参考スコア(独自算出の注目度): 25.7349297100143
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents show great promise for complex, multi-turn tool-use tasks, but their development is often hampered by the extreme scarcity of high-quality training data. Supervised fine-tuning (SFT) on synthetic data leads to overfitting, whereas standard reinforcement learning (RL) struggles with a critical cold-start problem and training instability. To address these challenges, we introduce $\textbf{Environment Tuning}$, a novel training paradigm that enables agents to learn complex behaviors directly from problem instances without relying on pre-collected expert trajectories. $\textbf{Environment Tuning}$ orchestrates this learning process through a structured curriculum, actionable environment augmentation that provides corrective feedback, and fine-grained progress rewards to ensure stable and efficient exploration. Using only 400 problem instances from Berkeley Function-Calling Leaderboard (BFCL) benchmark, our method not only achieves competitive in-distribution performance against strong baselines but also demonstrates superior out-of-distribution generalization, overcoming the performance collapse common to SFT-based approaches. Our work presents a paradigm shift from supervised fine-tuning on static trajectories to dynamic, environment-based exploration, paving the way for training more robust and data-efficient agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なマルチターンツール使用タスクを大いに約束するが、その開発は高品質なトレーニングデータの極端な不足によって妨げられることが多い。
合成データに対する改良された微調整(SFT)は過度に適合するが、標準強化学習(RL)は重要なコールドスタート問題とトレーニング不安定性に苦しむ。
これらの課題に対処するために、エージェントが事前にコンパイルされた専門家の軌跡に頼ることなく、問題インスタンスから直接複雑な振る舞いを学習できる新しいトレーニングパラダイムである$\textbf{Environment Tuning}$を紹介します。
$\textbf{Environment Tuning}$ この学習プロセスを、構造化されたカリキュラム、修正的なフィードバックを提供する実行可能な環境拡張、そして安定した効率的な探索を保証するためのきめ細かい進歩報酬を通じて編成する。
バークレー・ファンクション・カリング・リーダーボード (BFCL) ベンチマークから得られた400個の問題事例を用いて, 本手法は, 強力なベースラインに対する競合的分散性能を達成するだけでなく, SFTベースのアプローチに共通する性能崩壊を克服し, より優れたアウト・オブ・ディストリビューション一般化を示す。
我々の研究は、静的軌道の教師付き微調整から動的で環境に基づく探索へのパラダイムシフトを示し、より堅牢でデータ効率のよいエージェントを訓練するための道を開く。
関連論文リスト
- Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.212942734663514]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Stabilizing and Improving Federated Learning with Non-IID Data and
Client Dropout [15.569507252445144]
ラベル分布スキューによるデータヘテロジェニーティは、フェデレート学習におけるモデル性能を制限する重要な障害であることが示されている。
クロスエントロピー損失を計算するための事前校正ソフトマックス関数を導入することで、シンプルで効果的なフレームワークを提案する。
非IIDデータとクライアントドロップアウトの存在下で、既存のベースラインよりも優れたモデル性能を示す。
論文 参考訳(メタデータ) (2023-03-11T05:17:59Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。