論文の概要: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- arxiv url: http://arxiv.org/abs/2411.04983v2
- Date: Sat, 01 Feb 2025 02:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:03:58.820489
- Title: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- Title(参考訳): DINO-WM: 事前訓練された視覚機能に関する世界モデルがゼロショットプランニングを可能にする
- Authors: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto,
- Abstract要約: DINO-WM (DINO-WM) は視覚世界を再構築することなく視覚力学をモデル化する新しい手法である。
我々は,DINO-WMが6つの環境でテスト時にゼロショット動作解を実現することを実証した。
- 参考スコア(独自算出の注目度): 38.749045283035365
- License:
- Abstract: The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, remains challenging to learn and are typically developed for task-specific solutions with online policy learning. To unlock world models' true potential, we argue that they should 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To this end, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic planning by treating goal features as prediction targets. We demonstrate that DINO-WM achieves zero-shot behavioral solutions at test time on six environments without expert demonstrations, reward modeling, or pre-learned inverse models, outperforming prior state-of-the-art work across diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.
- Abstract(参考訳): コントロールアクションが与えられた将来の結果を予測できる能力は、物理的推論の基本である。
しかし、このような予測モデルは、しばしば世界モデルと呼ばれ、学習が困難であり、オンラインポリシー学習のタスク固有のソリューションのために開発されている。
世界モデルの真のポテンシャルを解き放つには
1) オフラインで事前コンパイルされた軌道上で訓練することができる。
2)テスト時の動作最適化のサポート,
3)タスクに依存しない推論を容易にする。
この目的のために,視覚世界を再構築することなく視覚力学をモデル化する新しい手法であるDINO-WMを提案する。
DINO-WMは、DINOv2で事前訓練された空間パッチ機能を活用し、将来のパッチ機能を予測することによって、オフラインの行動軌跡から学ぶことができる。
これにより、DINO-WMはアクションシーケンスの最適化を通じて観測目標を達成することができ、目標特徴を予測対象として扱うことでタスクに依存しない計画を容易にする。
DINO-WMは、専門家によるデモンストレーション、報酬モデリング、あるいは事前学習された逆モデルなしに、6つの環境でテスト時にゼロショットの挙動解を達成し、任意に設定された迷路、様々なオブジェクト形状のプッシュ操作、多粒子シナリオなど、様々なタスクファミリの先行処理よりも優れていることを示す。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文 参考訳(メタデータ) (2021-09-29T09:50:25Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。