論文の概要: Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents
- arxiv url: http://arxiv.org/abs/2601.18217v1
- Date: Mon, 26 Jan 2026 07:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.71298
- Title: Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents
- Title(参考訳): 一般税の支払いを減らしたLLMエージェントのためのRLトレーニングのクロスドメイン一般化研究
- Authors: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang,
- Abstract要約: ジェネラリストのLSMエージェントは、狭い環境下でポストトレーニングされることが多いが、はるかに広く、目に見えない領域に展開される。
本研究では,最終テスト領域が不明な場合のエージェント・ポストトレーニングの課題について検討する。
- 参考スコア(独自算出の注目度): 39.70183477067068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.
- Abstract(参考訳): ジェネラリストのLSMエージェントは、狭い環境下でポストトレーニングされることが多いが、はるかに広く、目に見えない領域に展開される。
本研究では,最終テスト領域が不明な場合のエージェント・ポストトレーニングの課題について検討する。
具体的には、強化学習(RL)環境とモデリング選択のどの特性がドメイン外性能に最も影響を与えるかを分析する。
まず、クロスドメインの一般化と強く相関する2つの環境軸を同定する。
一 状態情報豊かさ、すなわち、その状態から処理すべき代理人の情報量
(II)基本方針の下での目標到達性と軌道長によって推定される計画複雑性。
例えば、単純なグリッドワールド領域であるソコバンは、より現実的な ALFWorld よりもより強い一般化をもたらす。
これらの知見により、状態情報の豊かさだけでは、ドメイン間の堅牢さを効果的に改善できることがさらに示される。
タスクを変更せずによりリッチにするために、少数の注意をそらさない目標関連特徴を州に追加する。
環境側の特性以外にも、いくつかのモデリング選択についても検討する。
(a)SFTウォームアップまたはミッドトレーニングは、RL中の破滅的な忘れを防止するのに役立ち、中トレーニングデータミックスに含まれない領域への一般化を損なう。
b) RL中のステップバイステップ思考をオンにすることは、ドメイン内性能を常に改善するわけではないが、一般化を維持する上で重要な役割を担っている。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - FedDAG: Federated Domain Adversarial Generation Towards Generalizable Medical Image Analysis [13.028776283830686]
Federated Domain Adversarial Generation (FedDAG)は、ドメインシフトをシミュレートし、モデルの一般化を改善することを目的としている。
オリジナル画像と生成された画像のインスタンスレベルの特徴差を最大化することにより、斬新な画像を生成する。
4つの医療ベンチマークの実験では、フェデラルな医療シナリオの一般化を強化するFedDAGの能力を実証している。
論文 参考訳(メタデータ) (2025-01-22T07:08:45Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Beyond Finite Data: Towards Data-free Out-of-distribution Generalization
via Extrapolation [19.944946262284123]
ニューラルネットワークが人間のように外挿し、OODの一般化を実現するにはどうすればよいのか?
本稿では,大言語モデル(LLM)にカプセル化されている推論能力と広範な知識を活用して,完全に新しいドメインを合成する領域外挿手法を提案する。
提案手法は, VLCSなどのデータセットにおいて, 教師付き設定を約1~2%超え, 評価可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-08T18:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。