論文の概要: Decomposed Mutual Information Optimization for Generalized Context in
Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.04209v1
- Date: Sun, 9 Oct 2022 09:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:30:41.827920
- Title: Decomposed Mutual Information Optimization for Generalized Context in
Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習における一般化文脈に対する分解的相互情報最適化
- Authors: Yao Mu, Yuzheng Zhuang, Fei Ni, Bin Wang, Jianyu Chen, Jianye Hao,
Ping Luo
- Abstract要約: 複数の共同創設者がトランジションのダイナミクスに影響を与える可能性があるため、意思決定の正確なコンテキストを推測することは難しい。
本稿では、文脈学習におけるDOMINO(Decomposed Mutual Information Optimization)の課題に対処する。
理論的分析により,DOMINOは,多元的課題による相互情報の過小評価を克服できることが示された。
- 参考スコア(独自算出の注目度): 35.87062321504049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting to the changes in transition dynamics is essential in robotic
applications. By learning a conditional policy with a compact context,
context-aware meta-reinforcement learning provides a flexible way to adjust
behavior according to dynamics changes. However, in real-world applications,
the agent may encounter complex dynamics changes. Multiple confounders can
influence the transition dynamics, making it challenging to infer accurate
context for decision-making. This paper addresses such a challenge by
Decomposed Mutual INformation Optimization (DOMINO) for context learning, which
explicitly learns a disentangled context to maximize the mutual information
between the context and historical trajectories, while minimizing the state
transition prediction error. Our theoretical analysis shows that DOMINO can
overcome the underestimation of the mutual information caused by
multi-confounded challenges via learning disentangled context and reduce the
demand for the number of samples collected in various environments. Extensive
experiments show that the context learned by DOMINO benefits both model-based
and model-free reinforcement learning algorithms for dynamics generalization in
terms of sample efficiency and performance in unseen environments.
- Abstract(参考訳): 遷移ダイナミクスの変化に適応することはロボットの応用に不可欠である。
コンテクストをコンパクトに学習することで、コンテキスト対応のメタ強化学習は、動的変化に応じて振る舞いを調整する柔軟な方法を提供する。
しかし、現実世界のアプリケーションでは、エージェントは複雑なダイナミクスの変化に遭遇する可能性がある。
複数の共同創設者がトランジションのダイナミクスに影響を与え、意思決定の正確なコンテキストを推測することが難しくなる。
本稿では,コンテキスト学習における相互情報の最大化を図りつつ,状態遷移予測誤差を最小限に抑えつつ,コンテキスト学習のための相互情報最適化(DOMINO)の課題に対処する。
本理論解析により,多元的課題による相互情報の過小評価を克服し,様々な環境において収集されたサンプル数を削減できることを示した。
DOMINOが学習した文脈は、モデルベースとモデルフリーの強化学習アルゴリズムの両方の利点を、サンプル効率と、目に見えない環境における性能の観点から、動的一般化に有効であることを示す。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Text-centric Alignment for Multi-Modality Learning [3.6961400222746748]
マルチモーダル学習のためのテキスト中心アライメント(TAMML)を提案する。
テキストのユニークな性質を統一意味空間として活用することにより、TAMMLは目に見えない、多様性があり、予測不可能なモダリティの組み合わせを扱う上で、大幅な改善を示す。
本研究は,モダリティの可用性が動的で不確実な実世界のアプリケーションに対して,フレキシブルで効果的なソリューションを提供することによって,この分野に寄与する。
論文 参考訳(メタデータ) (2024-02-12T22:07:43Z) - Dynamics Generalisation in Reinforcement Learning via Adaptive
Context-Aware Policies [13.410372954752496]
一般化を改善するために,行動学習に文脈をどのように組み込むべきかについて検討する。
ニューラルネットワークアーキテクチャであるDecision Adapterを導入し、アダプタモジュールの重みを生成し、コンテキスト情報に基づいてエージェントの動作を条件付ける。
決定適応器は以前に提案したアーキテクチャの有用な一般化であり、より優れた一般化性能をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-10-25T14:50:05Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。