Fugu-MT 論文翻訳(概要): Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning

論文の概要: Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.02429v2
Date: Mon, 25 Nov 2024 10:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.577153
Title: Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning
Title（参考訳）: 文脈に基づくオフラインメタ強化学習における情報理論の枠組みに向けて
Authors: Lanqing Li, Hai Zhang, Xinyu Zhang, Shatong Zhu, Yang Yu, Junqiao Zhao, Pheng-Ann Heng,
Abstract要約: 我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
参考スコア（独自算出の注目度）: 48.79569442193824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As a marriage between offline RL and meta-RL, the advent of offline meta-reinforcement learning (OMRL) has shown great promise in enabling RL agents to multi-task and quickly adapt while acquiring knowledge safely. Among which, context-based OMRL (COMRL) as a popular paradigm, aims to learn a universal policy conditioned on effective task representations. In this work, by examining several key milestones in the field of COMRL, we propose to integrate these seemingly independent methodologies into a unified framework. Most importantly, we show that the pre-existing COMRL algorithms are essentially optimizing the same mutual information objective between the task variable $M$ and its latent representation $Z$ by implementing various approximate bounds. Such theoretical insight offers ample design freedom for novel algorithms. As demonstrations, we propose a supervised and a self-supervised implementation of $I(Z; M)$, and empirically show that the corresponding optimization algorithms exhibit remarkable generalization across a broad spectrum of RL benchmarks, context shift scenarios, data qualities and deep learning architectures. This work lays the information theoretic foundation for COMRL methods, leading to a better understanding of task representation learning in the context of reinforcement learning.
Abstract（参考訳）: オフラインRLとメタRLの結婚により、オフラインメタ強化学習(OMRL)の出現は、RLエージェントのマルチタスクと迅速な適応を可能にするとともに、知識を安全に獲得する上で大きな可能性を秘めている。その中のひとつとして、コンテキストベースOMRL(COMRL)が一般的なパラダイムであり、効果的なタスク表現を前提とした普遍的なポリシーの学習を目指している。本研究では,COMRLの分野におけるいくつかの重要なマイルストーンを考察することにより,これらの一見独立した方法論を統一的なフレームワークに統合することを提案する。最も重要なことは、既存のCOMRLアルゴリズムが、タスク変数$M$と、その潜在表現$Z$とを、様々な近似境界を実装することによって、本質的に同じ相互情報目的を最適化していることである。このような理論的な洞察は、新しいアルゴリズムに十分な設計の自由を提供する。実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムが、RLベンチマーク、コンテキストシフトシナリオ、データ品質、ディープラーニングアーキテクチャの幅広い範囲にわたって顕著な一般化を示すことを実証的に示す。本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文参考訳（メタデータ） (2022-08-07T06:17:15Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文参考訳（メタデータ） (2021-02-22T05:05:16Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
Towards Effective Context for Meta-Reinforcement Learning: an Approach based on Contrastive Learning [33.19862944149082]
CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
論文参考訳（メタデータ） (2020-09-29T09:29:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。