論文の概要: Conceptual Reinforcement Learning for Language-Conditioned Tasks
- arxiv url: http://arxiv.org/abs/2303.05069v1
- Date: Thu, 9 Mar 2023 07:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:53:27.306908
- Title: Conceptual Reinforcement Learning for Language-Conditioned Tasks
- Title(参考訳): 言語条件課題に対する概念強化学習
- Authors: Shaohui Peng, Xing Hu, Rui Zhang, Jiaming Guo, Qi Yi, Ruizhi Chen,
Zidong Du, Ling Li, Qi Guo, Yunji Chen
- Abstract要約: 言語条件付き政策における概念的共同表現を学習するための概念強化学習(CRL)フレームワークを提案する。
鍵となる洞察は、概念は人間のインスタンスや現実世界の状況におけるコンパクトで不変な表現であるということである。
- 参考スコア(独自算出の注目度): 20.300727364957208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the broad application of deep reinforcement learning (RL),
transferring and adapting the policy to unseen but similar environments is
still a significant challenge. Recently, the language-conditioned policy is
proposed to facilitate policy transfer through learning the joint
representation of observation and text that catches the compact and invariant
information across environments. Existing studies of language-conditioned RL
methods often learn the joint representation as a simple latent layer for the
given instances (episode-specific observation and text), which inevitably
includes noisy or irrelevant information and cause spurious correlations that
are dependent on instances, thus hurting generalization performance and
training efficiency. To address this issue, we propose a conceptual
reinforcement learning (CRL) framework to learn the concept-like joint
representation for language-conditioned policy. The key insight is that
concepts are compact and invariant representations in human cognition through
extracting similarities from numerous instances in real-world. In CRL, we
propose a multi-level attention encoder and two mutual information constraints
for learning compact and invariant concepts. Verified in two challenging
environments, RTFM and Messenger, CRL significantly improves the training
efficiency (up to 70%) and generalization ability (up to 30%) to the new
environment dynamics.
- Abstract(参考訳): 深層強化学習(RL)の幅広い適用にもかかわらず、政策を目に見えないが類似した環境に移行し、適応することは依然として重要な課題である。
近年,環境にまたがるコンパクトで不変な情報を捕捉する観察とテキストの合同表現を学習することで,政策伝達を促進するための言語条件ポリシーが提案されている。
言語条件付きRL手法の既存の研究は、しばしば与えられたインスタンス(エピソード固有の観察とテキスト)の単純な潜在層として結合表現を学習するが、それは必然的にノイズや無関係な情報を含んでおり、インスタンスに依存している突発的な相関を生じさせるため、一般化性能と訓練効率が損なわれる。
この問題に対処するために,言語条件付き政策における概念的共同表現を学習するための概念強化学習(CRL)フレームワークを提案する。
鍵となる洞察は、概念は人間の認知におけるコンパクトで不変な表現であり、実世界の多くの事例から類似点を抽出することである。
CRLでは,コンパクトで不変な概念を学習するためのマルチレベルアテンションエンコーダと2つの相互情報制約を提案する。
RTFMとMessengerの2つの困難な環境で検証されたCRLは、トレーニング効率(最大70%)と、新しい環境ダイナミクスに対する一般化能力(最大30%)を大幅に改善する。
関連論文リスト
- Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - On the Role of Emergent Communication for Social Learning in Multi-Agent
Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。
本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:23:27Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。