Fugu-MT 論文翻訳(概要): DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

論文の概要: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

arxiv url: http://arxiv.org/abs/2411.04983v2
Date: Sat, 01 Feb 2025 02:40:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.329204
Title: DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
Title（参考訳）: DINO-WM: 事前訓練された視覚機能に関する世界モデルがゼロショットプランニングを可能にする
Authors: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto,
Abstract要約: DINO-WM (DINO-WM) は視覚世界を再構築することなく視覚力学をモデル化する新しい手法である。我々は,DINO-WMが6つの環境でテスト時にゼロショット動作解を実現することを実証した。
参考スコア（独自算出の注目度）: 38.749045283035365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, remains challenging to learn and are typically developed for task-specific solutions with online policy learning. To unlock world models' true potential, we argue that they should 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To this end, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic planning by treating goal features as prediction targets. We demonstrate that DINO-WM achieves zero-shot behavioral solutions at test time on six environments without expert demonstrations, reward modeling, or pre-learned inverse models, outperforming prior state-of-the-art work across diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.
Abstract（参考訳）: コントロールアクションが与えられた将来の結果を予測できる能力は、物理的推論の基本である。しかし、このような予測モデルは、しばしば世界モデルと呼ばれ、学習が困難であり、オンラインポリシー学習のタスク固有のソリューションのために開発されている。世界モデルの真のポテンシャルを解き放つには 1) オフラインで事前コンパイルされた軌道上で訓練することができる。 2)テスト時の動作最適化のサポート, 3)タスクに依存しない推論を容易にする。この目的のために,視覚世界を再構築することなく視覚力学をモデル化する新しい手法であるDINO-WMを提案する。 DINO-WMは、DINOv2で事前訓練された空間パッチ機能を活用し、将来のパッチ機能を予測することによって、オフラインの行動軌跡から学ぶことができる。これにより、DINO-WMはアクションシーケンスの最適化を通じて観測目標を達成することができ、目標特徴を予測対象として扱うことでタスクに依存しない計画を容易にする。 DINO-WMは、専門家によるデモンストレーション、報酬モデリング、あるいは事前学習された逆モデルなしに、6つの環境でテスト時にゼロショットの挙動解を達成し、任意に設定された迷路、様々なオブジェクト形状のプッシュ操作、多粒子シナリオなど、様々なタスクファミリの先行処理よりも優れていることを示す。

関連論文リスト

OMGPT: A Sequence Modeling Framework for Data-driven Operational Decision Making [5.419799294989289]
我々は、逐次意思決定タスクを解決するために、生成事前学習変換(GPT)モデルを構築した。本稿ではまず,複数の作業上の意思決定タスクをカバーする汎用シーケンスモデリングフレームワークを提案する。次に、シーケンシャルモデリングのための自然かつ強力なアーキテクチャとして、トランスフォーマーベースのニューラルネットワークモデル(OMGPT)をトレーニングする。
論文参考訳（メタデータ） (2025-05-19T15:33:03Z)
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文参考訳（メタデータ） (2025-03-13T15:49:56Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文参考訳（メタデータ） (2021-09-29T09:50:25Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)
Planning from Pixels using Inverse Dynamics Models [44.16528631970381]
本稿では,タスク完了にともなう未来の行動の順序を学習することで,潜在世界モデルを学ぶ新しい方法を提案する。本研究では,視覚目標達成タスクの課題に対する提案手法の評価を行い,従来のモデルフリー手法と比較して性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2020-12-04T06:07:36Z)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文参考訳（メタデータ） (2020-10-26T03:20:42Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。