論文の概要: Towards Monotonic Improvement in In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23209v1
- Date: Sat, 27 Sep 2025 09:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.105968
- Title: Towards Monotonic Improvement in In-Context Reinforcement Learning
- Title(参考訳): インテクスト強化学習における単調な改善に向けて
- Authors: Wenhao Zhang, Shao Zhang, Xihuai Wang, Yang Li, Ying Wen,
- Abstract要約: In-Context Reinforcement Learning (ICRL)は、新しいタスクに迅速に適応できるエージェントを開発するための有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
学習時間とテスト時間の両方でコンテキスト値を推定する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.67894044930047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Reinforcement Learning (ICRL) has emerged as a promising paradigm for developing agents that can rapidly adapt to new tasks by leveraging past experiences as context, without updating their parameters. Recent approaches train large sequence models on monotonic policy improvement data from online RL, aiming to a continue improved testing time performance. However, our experimental analysis reveals a critical flaw: these models cannot show a continue improvement like the training data during testing time. Theoretically, we identify this phenomenon as Contextual Ambiguity, where the model's own stochastic actions can generate an interaction history that misleadingly resembles that of a sub-optimal policy from the training data, initiating a vicious cycle of poor action selection. To resolve the Contextual Ambiguity, we introduce Context Value into training phase and propose Context Value Informed ICRL (CV-ICRL). CV-ICRL use Context Value as an explicit signal representing the ideal performance theoretically achievable by a policy given the current context. As the context expands, Context Value could include more task-relevant information, and therefore the ideal performance should be non-decreasing. We prove that the Context Value tightens the lower bound on the performance gap relative to an ideal, monotonically improving policy. We fruther propose two methods for estimating Context Value at both training and testing time. Experiments conducted on the Dark Room and Minigrid testbeds demonstrate that CV-ICRL effectively mitigates performance degradation and improves overall ICRL abilities across various tasks and environments. The source code and data of this paper are available at https://github.com/Bluixe/towards_monotonic_improvement .
- Abstract(参考訳): In-Context Reinforcement Learning (ICRL)は、過去の経験をコンテキストとして活用することで、パラメータを更新することなく、新しいタスクに迅速に適応できるエージェントを開発するための、有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
これらのモデルは、テスト期間中のトレーニングデータのように、継続的な改善を示せません。
理論的には、この現象を文脈的曖昧性(Contextual Ambiguity)とみなし、モデル自身の確率的行動は、トレーニングデータから準最適ポリシーに誤って類似した相互作用履歴を発生させ、有害な行動選択のサイクルを開始する。
文脈の曖昧さを解決するため、トレーニングフェーズにコンテキスト値を導入し、CV-ICRL(Context Value Informed ICRL)を提案する。
CV-ICRLは、現在の文脈が与えられたポリシーによって理論的に達成可能な理想的な性能を表す明示的な信号としてコンテキスト値を使用する。
コンテキストが拡大するにつれて、Context Valueにはより多くのタスク関連情報が含まれる可能性があるため、理想的なパフォーマンスは非減少であるべきです。
我々は、コンテキスト値が、理想的な単調に改善されたポリシーに対して、パフォーマンスギャップの低い境界を締め付けることを証明した。
トレーニング時間とテスト時間の両方でコンテキスト値を推定する2つの方法を提案する。
ダークルームとミニグリッドの実験では、CV-ICRLは性能劣化を効果的に軽減し、様々なタスクや環境にまたがる全体的なICRL能力を改善することが示されている。
この論文のソースコードとデータはhttps://github.com/Bluixe/towards_monotonic_improvement で公開されている。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [37.62558445850573]
オンラインRLトレーニングのためのアルゴリズム,反復的影響に基づくフィルタリング(IIF)を提案する。
IIFはサンプルの複雑さを減らし、トレーニングをスピードアップし、より高いリターンを達成する。
これらの結果は、オンラインRLの解釈可能性、効率、有効性を向上させる。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Emergence of In-Context Reinforcement Learning from Noise Distillation [46.29510499540939]
雑音によるカリキュラムからコンテキスト内強化学習を可能にする新しいデータ取得手法を提案する。
本研究では,学習履歴の収集を支援する合成ノイズ注入カリキュラムの構築が可能であることを示す。
テキスト内RLは、学習データセットの最適部分ポリシーを2倍のマージンで上回り、最適ポリシーによる生成の必要性を軽減できることを実験的に実証した。
論文 参考訳(メタデータ) (2023-12-19T15:56:30Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。