論文の概要: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- arxiv url: http://arxiv.org/abs/2411.04983v1
- Date: Thu, 07 Nov 2024 18:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:43.576294
- Title: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- Title(参考訳): DINO-WM: 事前訓練された視覚機能に関する世界モデルがゼロショットプランニングを可能にする
- Authors: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto,
- Abstract要約: 本稿では、視覚世界を再構築することなく、視覚力学をモデル化する新しい手法であるDINO-WMを提案する。
迷路ナビゲーション,テーブルトッププッシュ,粒子操作など,様々な領域でDINO-WMを評価した。
- 参考スコア(独自算出の注目度): 38.749045283035365
- License:
- Abstract: The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.
- Abstract(参考訳): 制御アクションが与えられた将来の結果を予測できる能力は、物理的推論の基礎となる。
しかし、このような予測モデルは、しばしば世界モデルと呼ばれ、学習するのが困難であることが証明され、オンラインポリシー学習のタスク固有のソリューションのために開発されている。
我々は、世界モデルの真の可能性は、受動的データのみを使用して様々な問題を推論し、計画する能力にあると論じる。
具体的には、世界モデルは以下の3つの特性を持つ必要がある。
1) オフラインで事前コンパイルされた軌道上で訓練することができる。
2)テスト時の動作最適化のサポート,
3)タスクに依存しない推論を容易にする。
これを実現するために,視覚世界を再構築することなく視覚力学をモデル化する新しい手法であるDINO-WMを提案する。
DINO-WMは、DINOv2で事前訓練された空間パッチ機能を活用し、将来のパッチ機能を予測することによって、オフラインの行動軌跡から学ぶことができる。
この設計により、DINO-WMはアクションシーケンス最適化により観察目標を達成することができ、望ましいゴールパッチ機能を予測ターゲットとして扱うことでタスク非依存の行動計画を容易にする。
迷路ナビゲーション,テーブルトッププッシュ,粒子操作など,様々な領域におけるDINO-WMの評価を行った。
我々の実験は、DINO-WMが、専門家によるデモンストレーション、報酬モデリング、事前学習された逆モデルに頼ることなく、テスト時にゼロショットの挙動解を生成できることを実証した。
特に、DINO-WMは、従来の最先端の作業と比較して強力な一般化能力を示し、任意に設定された迷路、様々な物体形状のプッシュ操作、多粒子シナリオなどの多様なタスクファミリに適応する。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文 参考訳(メタデータ) (2021-09-29T09:50:25Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。