論文の概要: Can RL Improve Generalization of LLM Agents? An Empirical Study
- arxiv url: http://arxiv.org/abs/2603.12011v1
- Date: Thu, 12 Mar 2026 14:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.156675
- Title: Can RL Improve Generalization of LLM Agents? An Empirical Study
- Title(参考訳): RLはLLM剤の一般化を改善できるか? : 実証研究
- Authors: Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: Reinforcement Fine-tuning (RFT) は環境フィードバックに基づいてマルチターン意思決定を行うための LLM エージェントの訓練を約束している。
現実世界のデプロイメントでは、エージェントは異なるバックグラウンド知識を持つ見えない環境で動作することができる。
RFTは環境内のタスクの難易度でよく一般化されるが、見えない環境へのより弱い移動を示す。
- 参考スコア(独自算出の注目度): 68.19349692042341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement fine-tuning (RFT) has shown promise for training LLM agents to perform multi-turn decision-making based on environment feedback. However, most existing evaluations remain largely in-domain: training and testing are conducted in the same environment or even on the same tasks. In real-world deployment, agents may operate in unseen environments with different background knowledge, observation spaces, and action interfaces. To characterize the generalization profile of RFT under such shifts, we conduct a systematic study along three axes: (1) within-environment generalization across task difficulty, (2) cross-environment transfer to unseen environments, and (3) sequential multi-environment training to quantify transfer and forgetting. Our results show that RFT generalizes well across task difficulty within an environment, but exhibits weaker transfer to unseen environments, which correlates with shifts in both semantic priors and observation/action interfaces. In contrast, sequential training yields promising downstream gains with minimal upstream forgetting, and mixture training across environments improves the overall balance. We further provide detailed analyses and deeper insights, and hope our work helps the community develop and deploy generalizable LLM agents.
- Abstract(参考訳): 強化微調整(RFT)では,環境フィードバックに基づくマルチターン意思決定を行うLLMエージェントの訓練が約束されている。
しかし、既存の評価のほとんどはドメイン内であり、トレーニングとテストは同じ環境で行われ、同じタスクでも実行されます。
現実世界のデプロイメントでは、エージェントは異なるバックグラウンド知識、観察空間、アクションインターフェースを持つ見えない環境で動作することができる。
このようなシフト下でのRFTの一般化プロファイルを特徴付けるために,(1)タスク難易度を越えた環境内一般化,(2)見えない環境への環境横断移動,(3)移動と忘れを定量化するための連続的マルチ環境訓練の3つの軸に沿って体系的な研究を行う。
以上の結果から,RFTはタスクの難易度に優れるが,不明瞭な環境への移動はより弱く,セマンティックな先行と観察・行動の双方のインターフェースの変化と相関することが明らかとなった。
対照的に、シーケンシャルなトレーニングは、上流の忘れを最小限に抑え、下流のゲインを約束し、環境をまたいだ混合トレーニングは全体的なバランスを改善する。
我々はさらに詳細な分析と深い洞察を提供し、コミュニティが一般化可能なLLMエージェントの開発と展開を支援することを願っている。
関連論文リスト
- Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Discovering Minimal Reinforcement Learning Environments [24.6408931194983]
強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。
人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。
論文 参考訳(メタデータ) (2024-06-18T13:19:26Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Learning Representations that Support Robust Transfer of Predictors [5.65658124285176]
我々は、新しい環境への移動を最適化することに特化した、ロバストな見積もり基準、転送リスクを導入します。
IRMにインスパイアされたものの、転送リスクは分布外一般化の基準として優れていることを示す。
論文 参考訳(メタデータ) (2021-10-19T13:00:37Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。