論文の概要: Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts
- arxiv url: http://arxiv.org/abs/2507.07348v1
- Date: Thu, 10 Jul 2025 00:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.236983
- Title: Zero-Shot Context Generalization in Reinforcement Learning from Few Training Contexts
- Title(参考訳): 訓練文脈からの強化学習におけるゼロショットコンテキストの一般化
- Authors: James Chapman, Kedar Karhadkar, Guido Montufar,
- Abstract要約: 我々は,コンテキスト強化ベルマン方程式(CEBE)を導入し,単一コンテキストでの学習時の一般化を改善する。
我々は,CEBEを決定論的制御環境で近似するための効率的なデータ拡張手法として,文脈サンプル拡張(CSE)を導出する。
- 参考スコア(独自算出の注目度): 1.5020330976600738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has achieved remarkable success across multiple domains, including competitive games, natural language processing, and robotics. Despite these advancements, policies trained via DRL often struggle to generalize to evaluation environments with different parameters. This challenge is typically addressed by training with multiple contexts and/or by leveraging additional structure in the problem. However, obtaining sufficient training data across diverse contexts can be impractical in real-world applications. In this work, we consider contextual Markov decision processes (CMDPs) with transition and reward functions that exhibit regularity in context parameters. We introduce the context-enhanced Bellman equation (CEBE) to improve generalization when training on a single context. We prove both analytically and empirically that the CEBE yields a first-order approximation to the Q-function trained across multiple contexts. We then derive context sample enhancement (CSE) as an efficient data augmentation method for approximating the CEBE in deterministic control environments. We numerically validate the performance of CSE in simulation environments, showcasing its potential to improve generalization in DRL.
- Abstract(参考訳): 深層強化学習(DRL)は、競争ゲーム、自然言語処理、ロボット工学など、複数の領域で大きな成功を収めている。
これらの進歩にもかかわらず、DRLを通じて訓練されたポリシーは、異なるパラメータを持つ評価環境への一般化に苦慮することが多い。
この課題は典型的には、複数のコンテキストでのトレーニングや、問題に付加的な構造を活用することで解決される。
しかし、さまざまなコンテキストにわたる十分なトレーニングデータを取得することは、現実世界のアプリケーションでは現実的ではない。
本研究では,文脈パラメータの規則性を示す遷移関数と報酬関数を備えた文脈マルコフ決定プロセス(CMDP)について考察する。
本研究では,コンテキスト強化ベルマン方程式(CEBE)を導入し,単一文脈での学習時の一般化を改善する。
我々は、CEBEが複数の文脈で訓練されたQ-函数に一階近似をもたらすことを解析的および経験的に証明する。
次に、CEBEを決定論的制御環境で近似するための効率的なデータ拡張手法として、文脈サンプル拡張(CSE)を導出する。
シミュレーション環境におけるCSEの性能を数値的に検証し,DRLの一般化向上の可能性を示す。
関連論文リスト
- Scalable In-Context Q-Learning [42.80296905313835]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。