論文の概要: Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL
- arxiv url: http://arxiv.org/abs/2602.04089v1
- Date: Tue, 03 Feb 2026 23:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.315521
- Title: Scaling In-Context Online Learning Capability of LLMs via Cross-Episode Meta-RL
- Title(参考訳): クロスエポソードメタRLによるLLMの文脈内オンライン学習能力のスケーリング
- Authors: Xiaofeng Lin, Sirou Zhu, Yilei Chen, Mingyu Chen, Hejian Sang, Ioannis Paschalidis, Zhipeng Wang, Aldo Pacchiano, Xuezhou Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、すべてのタスク関連情報が事前に利用できる場合、高いパフォーマンスを達成する。
ORBITはマルチタスク・マルチタスク・メタ強化学習フレームワークで,文脈におけるインタラクションから学習するためにLDMを訓練する。
メタトレーニングの後、比較的小さなオープンソースモデル(Qwen3-14B)は、完全に見えない環境でコンテキスト内オンライン学習を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 28.82521610729606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance when all task-relevant information is available upfront, as in static prediction and instruction-following problems. However, many real-world decision-making tasks are inherently online: crucial information must be acquired through interaction, feedback is delayed, and effective behavior requires balancing information collection and exploitation over time. While in-context learning enables adaptation without weight updates, existing LLMs often struggle to reliably leverage in-context interaction experience in such settings. In this work, we show that this limitation can be addressed through training. We introduce ORBIT, a multi-task, multi-episode meta-reinforcement learning framework that trains LLMs to learn from interaction in context. After meta-training, a relatively small open-source model (Qwen3-14B) demonstrates substantially improved in-context online learning on entirely unseen environments, matching the performance of GPT-5.2 and outperforming standard RL fine-tuning by a large margin. Scaling experiments further reveal consistent gains with model size, suggesting significant headroom for learn-at-inference-time decision-making agents. Code reproducing the results in the paper can be found at https://github.com/XiaofengLin7/ORBIT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、静的予測や命令追従問題のように、すべてのタスク関連情報が前もって利用できる場合に強い性能を達成する。
しかし、現実の意思決定タスクの多くは本質的にオンラインであり、重要な情報は対話を通じて取得され、フィードバックは遅れ、効果的な行動には時間とともに情報収集と搾取のバランスが必要である。
コンテキスト内学習は重み付けの更新なしに適応できるが、既存のLLMは、そのような設定でコンテキスト内インタラクションエクスペリエンスを確実に活用するのに苦労することが多い。
本研究は,この制限をトレーニングを通じて対処できることを示す。
ORBITはマルチタスク・マルチタスク・メタ強化学習フレームワークで,文脈におけるインタラクションから学習するためにLDMを訓練する。
メタトレーニングの後、比較的小さなオープンソースモデル(Qwen3-14B)では、完全に見えない環境でのコンテキスト内オンライン学習が大幅に改善され、GPT-5.2の性能と標準RL微調整よりも大きなマージンで性能が向上した。
スケーリング実験はさらに、モデルサイズとの一貫性のあるゲインを明らかにし、学習-推論-時間決定エージェントのための重要なヘッドルームを示唆している。
論文で結果を再現するコードはhttps://github.com/XiaofengLin7/ORBITで見ることができる。
関連論文リスト
- Experience Scaling: Post-Deployment Evolution For Large Language Models [44.48142891798125]
大規模言語モデル(LLM)の継続的デプロイ後進化のためのフレームワークであるエクスペリエンススケーリングを提案する。
このフレームワークは,以前には見つからなかったが関連するタスク,繰り返しクエリ,過飽和知識ストアへの一般化を含む実世界のシナリオで検証される。
その結果、構造化されたデプロイ後学習は、静的な人間生成データの限界を超えてLLM能力を拡張できることを示した。
論文 参考訳(メタデータ) (2025-09-23T08:04:58Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Teaching Models to Improve on Tape [30.330699770714165]
大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。
最近の研究によると、LLMはそのような「修正的フィードバック」の恩恵を受けることができる。
本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。
論文 参考訳(メタデータ) (2024-11-03T08:49:55Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。