論文の概要: Zero-shot cross-modal transfer of Reinforcement Learning policies
through a Global Workspace
- arxiv url: http://arxiv.org/abs/2403.04588v1
- Date: Thu, 7 Mar 2024 15:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:34:54.284287
- Title: Zero-shot cross-modal transfer of Reinforcement Learning policies
through a Global Workspace
- Title(参考訳): グローバルワークスペースによる強化学習政策のゼロショットクロスモーダル転送
- Authors: L\'eopold Mayti\'e, Benjamin Devillers, Alexandre Arnold, Rufin
VanRullen
- Abstract要約: 筆者らは,2つの入力モダリティによって収集された環境情報を活用するために,「グローバルワークスペース」を訓練する。
2つの異なる環境とタスクにおいて、入力モダリティ間のゼロショット・クロスモーダル転送を行うモデルの能力を明らかにする。
- 参考スコア(独自算出の注目度): 48.24821328103934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans perceive the world through multiple senses, enabling them to create a
comprehensive representation of their surroundings and to generalize
information across domains. For instance, when a textual description of a scene
is given, humans can mentally visualize it. In fields like robotics and
Reinforcement Learning (RL), agents can also access information about the
environment through multiple sensors; yet redundancy and complementarity
between sensors is difficult to exploit as a source of robustness (e.g. against
sensor failure) or generalization (e.g. transfer across domains). Prior
research demonstrated that a robust and flexible multimodal representation can
be efficiently constructed based on the cognitive science notion of a 'Global
Workspace': a unique representation trained to combine information across
modalities, and to broadcast its signal back to each modality. Here, we explore
whether such a brain-inspired multimodal representation could be advantageous
for RL agents. First, we train a 'Global Workspace' to exploit information
collected about the environment via two input modalities (a visual input, or an
attribute vector representing the state of the agent and/or its environment).
Then, we train a RL agent policy using this frozen Global Workspace. In two
distinct environments and tasks, our results reveal the model's ability to
perform zero-shot cross-modal transfer between input modalities, i.e. to apply
to image inputs a policy previously trained on attribute vectors (and
vice-versa), without additional training or fine-tuning. Variants and ablations
of the full Global Workspace (including a CLIP-like multimodal representation
trained via contrastive learning) did not display the same generalization
abilities.
- Abstract(参考訳): 人間は複数の感覚を通じて世界を知覚し、周囲を包括的に表現し、ドメイン間の情報を一般化することができる。
例えば、シーンのテキスト記述が与えられると、人間はそれを精神的に可視化することができる。
ロボット工学や強化学習(RL)のような分野では、エージェントは複数のセンサーを通して環境に関する情報にアクセスすることもできるが、センサー間の冗長性と相補性は堅牢性(例えばセンサーの故障)や一般化(ドメイン間の移動など)の源として利用することは困難である。
従来の研究では、「グローバルワークスペース」という認知科学的な概念に基づいて、堅牢で柔軟なマルチモーダル表現を効率的に構築できることが実証されていた。
本稿では,脳に触発されたマルチモーダル表現がRLエージェントに有利であるかどうかを考察する。
まず、2つの入力モダリティ(視覚的入力、またはエージェントの状態とその環境を表す属性ベクトル)を通じて環境に関する情報を活用するために「グローバルワークスペース」を訓練する。
そして、この凍結したGlobal Workspaceを使ってRLエージェントポリシーを訓練する。
2つの異なる環境とタスクにおいて、我々はモデルが入力モダリティ間のゼロショットクロスモーダル転送を行う能力、すなわち、追加のトレーニングや微調整なしに、属性ベクトル(および逆)でトレーニングされたポリシーを画像入力に適用できることを明らかにしている。
完全なグローバルワークスペースの変種とアブレーション(コントラスト学習によって訓練されたクリップのようなマルチモーダル表現を含む)は、同じ一般化能力を見せなかった。
関連論文リスト
- Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-09-11T15:22:43Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。