論文の概要: MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared
Semantic Spaces
- arxiv url: http://arxiv.org/abs/2402.12845v1
- Date: Tue, 20 Feb 2024 09:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:08:36.857723
- Title: MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared
Semantic Spaces
- Title(参考訳): more-3s:共有意味空間を用いたマルチモーダルベースオフライン強化学習
- Authors: Tianyu Zheng, Ge Zhang, Xingwei Qu, Ming Kuang, Stephen W. Huang, and
Zhaofeng He
- Abstract要約: 我々は、オフライン強化学習をマルチモーダル言語モデルと事前学習言語モデルを統合することで教師付き学習タスクに変換する。
提案手法では,画像から得られた状態情報と,テキストから得られた行動関連データを取り入れた。
提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 4.27038429382431
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Drawing upon the intuition that aligning different modalities to the same
semantic embedding space would allow models to understand states and actions
more easily, we propose a new perspective to the offline reinforcement learning
(RL) challenge. More concretely, we transform it into a supervised learning
task by integrating multimodal and pre-trained language models. Our approach
incorporates state information derived from images and action-related data
obtained from text, thereby bolstering RL training performance and promoting
long-term strategic thinking. We emphasize the contextual understanding of
language and demonstrate how decision-making in RL can benefit from aligning
states' and actions' representation with languages' representation. Our method
significantly outperforms current baselines as evidenced by evaluations
conducted on Atari and OpenAI Gym environments. This contributes to advancing
offline RL performance and efficiency while providing a novel perspective on
offline RL.Our code and data are available at
https://github.com/Zheng0428/MORE_.
- Abstract(参考訳): 異なるモダリティを同じ意味的埋め込み空間に合わせることで、モデルが状態や行動をより容易に理解できるという直感に基づいて、オフライン強化学習(RL)課題に対する新たな視点を提案する。
より具体的には、マルチモーダルおよび事前学習言語モデルを統合することにより、教師付き学習タスクに変換する。
提案手法は,テキストから得られた画像と行動関連データから得られた状態情報を取り入れ,RLトレーニング性能を高め,長期戦略思考を促進する。
我々は、言語における文脈的理解を強調し、RLにおける意思決定が、状態の表現と行動の表現を言語表現と整合させることによってどのように利益をもたらすかを示す。
提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
オフラインRLのコードとデータはhttps://github.com/Zheng0428/MORE_で公開されている。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Making Offline RL Online: Collaborative World Models for Offline Visual
Reinforcement Learning [99.59728624855566]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:55:10Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。