論文の概要: FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model
- arxiv url: http://arxiv.org/abs/2412.08261v2
- Date: Sun, 16 Feb 2025 03:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 17:33:45.803685
- Title: FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model
- Title(参考訳): FLIP:汎用マニピュレーションワールドモデルとしてのフロー中心生成計画
- Authors: Chongkai Gao, Haozhuo Zhang, Zhixuan Xu, Zhehao Cai, Lin Shao,
- Abstract要約: 本稿では,視覚空間のモデルベース計画アルゴリズムFLIPについて述べる。
FLIPは、オブジェクト、ロボット、タスクに対して、一般的なアクション表現としてイメージフローを持つ長い水平プランを合成することができる。
さらに、合成されたフローとビデオプランは、ロボットの実行のための低レベル制御ポリシーのトレーニングをガイドすることができる。
- 参考スコア(独自算出の注目度): 2.9509867426905925
- License:
- Abstract: We aim to develop a model-based planning framework for world models that can be scaled with increasing model and data budgets for general-purpose manipulation tasks with only language and vision inputs. To this end, we present FLow-centric generative Planning (FLIP), a model-based planning algorithm on visual space that features three key modules: 1. a multi-modal flow generation model as the general-purpose action proposal module; 2. a flow-conditioned video generation model as the dynamics module; and 3. a vision-language representation learning model as the value module. Given an initial image and language instruction as the goal, FLIP can progressively search for long-horizon flow and video plans that maximize the discounted return to accomplish the task. FLIP is able to synthesize long-horizon plans across objects, robots, and tasks with image flows as the general action representation, and the dense flow information also provides rich guidance for long-horizon video generation. In addition, the synthesized flow and video plans can guide the training of low-level control policies for robot execution. Experiments on diverse benchmarks demonstrate that FLIP can improve both the success rates and quality of long-horizon video plan synthesis and has the interactive world model property, opening up wider applications for future works.Video demos are on our website: https://nus-lins-lab.github.io/flipweb/.
- Abstract(参考訳): 我々は,言語と視覚のみによる汎用的な操作タスクのためのモデルとデータ予算を増大させ,スケール可能な世界モデルのためのモデルベース計画フレームワークを開発することを目的とする。
この目的のために,視覚空間のモデルベース計画法であるFLIP(FLow-centric generative Planning)を提案する。
1. 汎用アクション提案モジュールとしてのマルチモーダルフロー生成モデル
2. ダイナミックスモジュールとしてのフローコンディショニングビデオ生成モデル
3.バリューモジュールとしての視覚言語表現学習モデル。
目標とする初期画像と言語指導が与えられた場合、FLIPはそのタスクを達成するためにディスカウントされたリターンを最大化する長軸フローとビデオプランを段階的に探索することができる。
FLIPは,物体,ロボット,タスク間の長軸計画の合成が可能であり,画像フローを一般的な動作表現として用いることができ,高密度なフロー情報もまた,長軸映像生成のための豊富なガイダンスを提供する。
さらに、合成されたフローとビデオプランは、ロボットの実行のための低レベル制御ポリシーのトレーニングをガイドすることができる。
様々なベンチマーク実験により、FLIPは長期ビデオプランの合成の成功率と品質の両方を改善し、インタラクティブな世界モデル特性を持ち、将来の作業のための幅広いアプリケーションを開くことが示されている。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。