論文の概要: Unified Video Action Model
- arxiv url: http://arxiv.org/abs/2503.00200v2
- Date: Tue, 04 Mar 2025 08:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:39.093556
- Title: Unified Video Action Model
- Title(参考訳): 統一映像行動モデル
- Authors: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song,
- Abstract要約: 統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。
我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。
広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
- 参考スコア(独自算出の注目度): 47.88377984526902
- License:
- Abstract: A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.
- Abstract(参考訳): 統合されたビデオとアクションモデルは、ビデオがアクション予測のためのリッチなシーン情報を提供し、アクションがビデオ予測のための動的情報を提供するロボット工学にとって重要な約束である。
しかし, 映像生成と行動予測を効果的に組み合わせることは依然として困難であり, 現在の映像生成手法は, 行動精度と推論速度において直接的政策学習のパフォーマンスに適合しない。
このギャップを埋めるために、ビデオとアクションの予測を協調的に最適化し、高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を導入する。
鍵となるのは、共同でビデオアクションの潜在表現を学び、ビデオアクションのデコードを切り離すことだ。
共同潜在表現は視覚領域と行動領域をブリッジし、映像と行動系列の関係を効果的にモデル化する。
一方、2つの軽量拡散ヘッドを動力とするデカップリングデコーディングは、推論中にビデオ生成をバイパスして高速な動作推論を可能にする。
このような統合されたフレームワークは、マスクされた入力トレーニングを通じて多目的機能を実現する。
アクションやビデオを選択的にマスキングすることで、フォワードや逆ダイナミクスモデリングやビデオ生成など、ポリシー学習以外のさまざまなタスクに取り組むことができる。
広範に実験を行った結果,UVAはポリシー学習,フォワード/インバースダイナミクス,ビデオ観察予測など,特定のアプリケーションに適した手法と比較して,性能を損なうことなく,幅広いロボティクスタスクの汎用的なソリューションとして機能することが実証された。
結果はhttps://unified-video-action-model.github.io/で最もよく見られる。
関連論文リスト
- PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning [19.67005754615478]
PlaySlotはオブジェクト中心のビデオ予測モデルであり、未ラベルのビデオシーケンスからオブジェクト表現と潜在アクションを推論する。
PlaySlotは、ビデオのダイナミックスから推測できる潜在アクションで条件付けられた複数の可能な先物を生成することができる。
その結果,PlaySlotは,異なる環境における映像予測において,オブジェクト中心のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-11T14:50:10Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。