論文の概要: DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with
Prototypical Representations
- arxiv url: http://arxiv.org/abs/2110.14565v1
- Date: Wed, 27 Oct 2021 16:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 13:11:10.065938
- Title: DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with
Prototypical Representations
- Title(参考訳): dreamerpro: プロトタイプ表現を用いたリコンストラクションフリーモデルに基づく強化学習
- Authors: Fei Deng, Ingook Jang, Sungjin Ahn
- Abstract要約: モデルベース強化学習(MBRL)のエージェントであるドリーマー(Dreamer)は、画像観察を再構築することで世界モデルを学ぶ。
本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。
結果、DreamerProはDreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートで大きなパフォーマンス向上を実現した。
- 参考スコア(独自算出の注目度): 18.770113681323906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Top-performing Model-Based Reinforcement Learning (MBRL) agents, such as
Dreamer, learn the world model by reconstructing the image observations. Hence,
they often fail to discard task-irrelevant details and struggle to handle
visual distractions. To address this issue, previous work has proposed to
contrastively learn the world model, but the performance tends to be inferior
in the absence of distractions. In this paper, we seek to enhance robustness to
distractions for MBRL agents. Specifically, we consider incorporating
prototypical representations, which have yielded more accurate and robust
results than contrastive approaches in computer vision. However, it remains
elusive how prototypical representations can benefit temporal dynamics learning
in MBRL, since they treat each image independently without capturing temporal
structures. To this end, we propose to learn the prototypes from the recurrent
states of the world model, thereby distilling temporal structures from past
observations and actions into the prototypes. The resulting model, DreamerPro,
successfully combines Dreamer with prototypes, making large performance gains
on the DeepMind Control suite both in the standard setting and when there are
complex background distractions. Code available at
https://github.com/fdeng18/dreamer-pro .
- Abstract(参考訳): モデルベース強化学習(MBRL)のエージェントであるドリーマーは、画像観察を再構築することで世界モデルを学ぶ。
そのため、タスクの無関係な詳細を破棄し、視覚的な注意をそらすのに苦労することが多い。
この問題に対処するために、以前の研究は対照的に世界モデルを学ぶことを提案したが、パフォーマンスは注意をそらさずに劣る傾向がある。
本稿では,MBRL剤の分散に対する堅牢性を高めることを目的とする。
具体的には,コンピュータビジョンにおけるコントラストアプローチよりも正確でロバストな結果が得られるプロトタイプ表現の導入を検討する。
しかし、各画像が時間構造を捉えずに独立して扱うため、MBRLにおける時間力学学習の原型表現がいかに有用かは、いまだ解明されていない。
そこで本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。
その結果生まれたDreamerProは、Dreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートにおいて、標準設定と複雑なバックグラウンド障害の両方で大きなパフォーマンス向上を実現した。
コードはhttps://github.com/fdeng18/dreamer-proで入手できる。
関連論文リスト
- MuDreamer: Learning Predictive World Models without Reconstruction [58.0159270859475]
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T22:09:01Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition [0.5448283690603357]
従来,2次元畳み込みニューラルネットワーク(CNN)は,コンピュータビジョンタスクの形状よりもテクスチャに偏っている傾向があった。
これは、大きなビデオモデルが時間の経過とともに関連した形状を追跡するのではなく、急激な相関関係を学習しているという疑いを提起する。
本研究では, フレーム依存性のモデリングによって, 連続的, 注意的, 畳み込み的ビデオモデルに対するドメイン間ロバスト性について検討した。
論文 参考訳(メタデータ) (2021-12-22T19:11:53Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。