論文の概要: Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual Distractions
- arxiv url: http://arxiv.org/abs/2506.05419v1
- Date: Thu, 05 Jun 2025 00:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.146379
- Title: Dream to Generalize: Zero-Shot Model-Based Reinforcement Learning for Unseen Visual Distractions
- Title(参考訳): 一般化への夢:見えない視覚障害者のためのゼロショットモデルに基づく強化学習
- Authors: Jeongsoo Ha, Kyungsoo Kim, Yusung Kim,
- Abstract要約: ゼロショットモデルに基づく強化学習(MBRL)のための新しい自己教師型手法Dream to Generalize(Dr.G)を提案する。
G博士はそのエンコーダと世界モデルを2つのコントラスト学習で訓練し、多視点データ拡張におけるタスク関連特徴を効率的に捉える。
我々はまた、世界モデルが時間構造をよりよく理解するのに役立つリカレント状態逆ダイナミクスモデルも導入する。
- 参考スコア(独自算出の注目度): 14.137070712516005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) has been used to efficiently solve vision-based control tasks in highdimensional image observations. Although recent MBRL algorithms perform well in trained observations, they fail when faced with visual distractions in observations. These task-irrelevant distractions (e.g., clouds, shadows, and light) may be constantly present in real-world scenarios. In this study, we propose a novel self-supervised method, Dream to Generalize (Dr. G), for zero-shot MBRL. Dr. G trains its encoder and world model with dual contrastive learning which efficiently captures task-relevant features among multi-view data augmentations. We also introduce a recurrent state inverse dynamics model that helps the world model to better understand the temporal structure. The proposed methods can enhance the robustness of the world model against visual distractions. To evaluate the generalization performance, we first train Dr. G on simple backgrounds and then test it on complex natural video backgrounds in the DeepMind Control suite, and the randomizing environments in Robosuite. Dr. G yields a performance improvement of 117% and 14% over prior works, respectively. Our code is open-sourced and available at https://github.com/JeongsooHa/DrG.git
- Abstract(参考訳): モデルベース強化学習(MBRL)は、高次元画像観測において視覚ベースの制御タスクを効率的に解くために用いられる。
近年のMBRLアルゴリズムは、訓練された観察においてよく機能するが、観察において視覚的障害に直面した場合には失敗する。
これらのタスク非関連な気晴らし(雲、影、光など)は、現実世界のシナリオに常に存在する可能性がある。
本研究では,ゼロショットMBRLのための新しい自己教師方式Dream to Generalize(Dr.G)を提案する。
G博士はそのエンコーダと世界モデルを2つのコントラスト学習で訓練し、多視点データ拡張におけるタスク関連特徴を効率的に捉える。
我々はまた、世界モデルが時間構造をよりよく理解するのに役立つリカレント状態逆ダイナミクスモデルも導入する。
提案手法は,視覚障害に対する世界モデルの堅牢性を高めることができる。
一般化性能を評価するために、まずG博士を単純なバックグラウンドで訓練し、次にDeepMind Controlスイートの複雑なビデオ背景とRobosuiteのランダム化環境でテストする。
G博士は、前作に比べて、それぞれ117%と14%のパフォーマンス改善を達成している。
私たちのコードは、https://github.com/JeongsooHa/DrG.gitで公開されています。
関連論文リスト
- Task-aligned prompting improves zero-shot detection of AI-generated images by Vision-Language Models [2.005104318774207]
本研究では,AI生成画像のゼロショット検出における事前学習型視覚言語モデルの使用について検討する。
タスクアライメントの促進により、より焦点を絞った推論が可能となり、微調整なしで性能が大幅に向上することを示す。
以上の結果から,タスクアライメントは,VLMの潜在能力の向上と,より集中的な推論を促すことが示唆された。
論文 参考訳(メタデータ) (2025-05-20T22:44:04Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with
Prototypical Representations [18.770113681323906]
モデルベース強化学習(MBRL)のエージェントであるドリーマー(Dreamer)は、画像観察を再構築することで世界モデルを学ぶ。
本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。
結果、DreamerProはDreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートで大きなパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2021-10-27T16:35:00Z) - Contrastive Variational Reinforcement Learning for Complex Observations [39.98639686743489]
本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。
CVRLは、潜伏状態と観測者の相互情報を識別的に最大化することで、対照的な変動モデルを学習する。
標準的なMujocoタスク上で、最先端のモデルベースのDRLメソッドと同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-08-06T02:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。