論文の概要: Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.02429v1
- Date: Sun, 4 Feb 2024 09:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:50:10.430594
- Title: Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning
- Title(参考訳): 文脈に基づくオフラインメタ強化学習における情報理論の枠組みに向けて
- Authors: Lanqing Li, Hai Zhang, Xinyu Zhang, Shatong Zhu, Junqiao Zhao,
Pheng-Ann Heng
- Abstract要約: コンテクストベースのOMRL(COMRL)は,効率的なタスク表現を前提としたユニバーサルポリシーの学習を目的としている。
我々はCOMRLアルゴリズムが,タスク変数$boldsymbolM$と,その潜在表現$boldsymbolZ$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマークの幅広い範囲にわたって顕著な一般化を示す。
- 参考スコア(独自算出の注目度): 50.976910714839065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a marriage between offline RL and meta-RL, the advent of offline
meta-reinforcement learning (OMRL) has shown great promise in enabling RL
agents to multi-task and quickly adapt while acquiring knowledge safely. Among
which, Context-based OMRL (COMRL) as a popular paradigm, aims to learn a
universal policy conditioned on effective task representations. In this work,
by examining several key milestones in the field of COMRL, we propose to
integrate these seemingly independent methodologies into a unified information
theoretic framework. Most importantly, we show that the pre-existing COMRL
algorithms are essentially optimizing the same mutual information objective
between the task variable $\boldsymbol{M}$ and its latent representation
$\boldsymbol{Z}$ by implementing various approximate bounds. Based on the
theoretical insight and the information bottleneck principle, we arrive at a
novel algorithm dubbed UNICORN, which exhibits remarkable generalization across
a broad spectrum of RL benchmarks, context shift scenarios, data qualities and
deep learning architectures, attaining the new state-of-the-art. We believe
that our framework could open up avenues for new optimality bounds and COMRL
algorithms.
- Abstract(参考訳): オフラインRLとメタRLの結婚により、オフラインメタ強化学習(OMRL)の出現は、RLエージェントのマルチタスクと迅速な適応を可能にするとともに、知識を安全に獲得する上で大きな可能性を秘めている。
その中のひとつとして、コンテキストベースのOMRL(COMRL)は、効率的なタスク表現に基づく普遍的なポリシーの学習を目指している。
本研究では,COMRLの分野におけるいくつかの重要なマイルストーンを考察することにより,これらの一見独立した方法論を統合情報理論フレームワークに統合することを提案する。
最も重要なことは、既存のCOMRLアルゴリズムが、タスク変数 $\boldsymbol{M}$ と、その潜在表現 $\boldsymbol{Z}$ を、様々な近似境界を実装することによって、本質的に同じ相互情報目的を最適化していることである。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマーク、コンテキストシフトシナリオ、データ品質、ディープラーニングアーキテクチャの幅広い範囲にわたる顕著な一般化を示す。
我々は,新しい最適性境界とCOMRLアルゴリズムの道を開くことができると考えている。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning [33.19862944149082]
CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。
我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
論文 参考訳(メタデータ) (2020-09-29T09:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。