論文の概要: Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual Distractions
- arxiv url: http://arxiv.org/abs/2506.05419v1
- Date: Thu, 05 Jun 2025 00:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.146379
- Title: Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual Distractions
- Title(参考訳): 一般化への夢:見えない視覚障害者のためのゼロショットモデルに基づく強化学習
- Authors: Jeongsoo Ha, Kyungsoo Kim, Yusung Kim,
- Abstract要約: ゼロショットモデルに基づく強化学習(MBRL)のための新しい自己教師型手法Dream to Generalize(Dr.G)を提案する。
G博士はそのエンコーダと世界モデルを2つのコントラスト学習で訓練し、多視点データ拡張におけるタスク関連特徴を効率的に捉える。
我々はまた、世界モデルが時間構造をよりよく理解するのに役立つリカレント状態逆ダイナミクスモデルも導入する。
- 参考スコア(独自算出の注目度): 14.137070712516005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) has been used to efficiently solve vision-based control tasks in highdimensional image observations. Although recent MBRL algorithms perform well in trained observations, they fail when faced with visual distractions in observations. These task-irrelevant distractions (e.g., clouds, shadows, and light) may be constantly present in real-world scenarios. In this study, we propose a novel self-supervised method, Dream to Generalize (Dr. G), for zero-shot MBRL. Dr. G trains its encoder and world model with dual contrastive learning which efficiently captures task-relevant features among multi-view data augmentations. We also introduce a recurrent state inverse dynamics model that helps the world model to better understand the temporal structure. The proposed methods can enhance the robustness of the world model against visual distractions. To evaluate the generalization performance, we first train Dr. G on simple backgrounds and then test it on complex natural video backgrounds in the DeepMind Control suite, and the randomizing environments in Robosuite. Dr. G yields a performance improvement of 117% and 14% over prior works, respectively. Our code is open-sourced and available at https://github.com/JeongsooHa/DrG.git
- Abstract(参考訳): モデルベース強化学習(MBRL)は、高次元画像観測において視覚ベースの制御タスクを効率的に解くために用いられる。
近年のMBRLアルゴリズムは、訓練された観察においてよく機能するが、観察において視覚的障害に直面した場合には失敗する。
これらのタスク非関連な気晴らし(雲、影、光など)は、現実世界のシナリオに常に存在する可能性がある。
本研究では,ゼロショットMBRLのための新しい自己教師方式Dream to Generalize(Dr.G)を提案する。
G博士はそのエンコーダと世界モデルを2つのコントラスト学習で訓練し、多視点データ拡張におけるタスク関連特徴を効率的に捉える。
我々はまた、世界モデルが時間構造をよりよく理解するのに役立つリカレント状態逆ダイナミクスモデルも導入する。
提案手法は,視覚障害に対する世界モデルの堅牢性を高めることができる。
一般化性能を評価するために、まずG博士を単純なバックグラウンドで訓練し、次にDeepMind Controlスイートの複雑なビデオ背景とRobosuiteのランダム化環境でテストする。
G博士は、前作に比べて、それぞれ117%と14%のパフォーマンス改善を達成している。
私たちのコードは、https://github.com/JeongsooHa/DrG.gitで公開されています。
関連論文リスト
- Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with
Prototypical Representations [18.770113681323906]
モデルベース強化学習(MBRL)のエージェントであるドリーマー(Dreamer)は、画像観察を再構築することで世界モデルを学ぶ。
本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。
結果、DreamerProはDreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートで大きなパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2021-10-27T16:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。