論文の概要: S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight
- arxiv url: http://arxiv.org/abs/2603.16195v1
- Date: Tue, 17 Mar 2026 07:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.145094
- Title: S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight
- Title(参考訳): S-VAM: 自己拡張型幾何学的・意味的予測によるショートカットビデオアクションモデル
- Authors: Haodong Yan, Zhide Zhong, Jiaguan Zhu, Junjie He, Weilin Yuan, Wenxuan Song, Xin Gong, Yingjie Cai, Guanyi Zhao, Xu Yan, Bingbing Liu, Ying-Cong Chen, Haoang Li,
- Abstract要約: ビデオアクションモデル(VAM)は、ロボット学習のための有望なパラダイムとして登場した。
S-VAMは、1つのフォワードパスを介してコヒーレントな幾何学的および意味的表現を予測できるショートカットビデオアクションモデルである。
- 参考スコア(独自算出の注目度): 42.690473567612116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action models (VAMs) have emerged as a promising paradigm for robot learning, owing to their powerful visual foresight for complex manipulation tasks. However, current VAMs, typically relying on either slow multi-step video generation or noisy one-step feature extraction, cannot simultaneously guarantee real-time inference and high-fidelity foresight. To address this limitation, we propose S-VAM, a shortcut video-action model that foresees coherent geometric and semantic representations via a single forward pass. Serving as a stable blueprint, these foreseen representations significantly simplify the action prediction. To enable this efficient shortcut, we introduce a novel self-distillation strategy that condenses structured generative priors of multi-step denoising into one-step inference. Specifically, vision foundation model (VFM) representations extracted from the diffusion model's own multi-step generated videos provide teacher targets. Lightweight decouplers, as students, learn to directly map noisy one-step features to these targets. Extensive experiments in simulation and the real world demonstrate that our S-VAM outperforms state-of-the-art methods, enabling efficient and precise manipulation in complex environments. Our project page is https://haodong-yan.github.io/S-VAM/
- Abstract(参考訳): ビデオアクションモデル(VAM)は、複雑な操作タスクのための強力な視覚的視野のため、ロボット学習のための有望なパラダイムとして登場した。
しかしながら、現在のVAMは、通常、遅いマルチステップビデオ生成またはノイズの多いワンステップ特徴抽出のいずれかに依存しており、リアルタイム推論と高忠実度予測を同時に保証することはできない。
この制限に対処するため,一本のフォワードパスを介してコヒーレントな幾何学的および意味的表現を予測できるショートカットビデオアクションモデルであるS-VAMを提案する。
安定な青写真として機能するこれらの表現は、アクション予測を著しく単純化する。
この効率的なショートカットを実現するために,複数ステップの縮退前の構造を1ステップの推論に凝縮する新しい自己蒸留戦略を導入する。
具体的には、拡散モデル自身の多段階生成ビデオから抽出した視覚基礎モデル(VFM)表現が教師の目標を提供する。
軽量デカップラーは、学生として、ノイズの多い1ステップの機能をこれらのターゲットに直接マップすることを学ぶ。
シミュレーションと実世界における大規模な実験により、我々のS-VAMは最先端の手法よりも優れており、複雑な環境における効率的かつ正確な操作を可能にしている。
私たちのプロジェクトページはhttps://haodong-yan.github.io/S-VAM/です。
関連論文リスト
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis [32.08769443927576]
我々は、リアルタイム・リスク対応計画のためのデュアルシステム・ワールドモデルであるManipulate in Dream (MinD)を提案する。
MinDは2つの非同期拡散プロセスを使用する: 将来のシーンを予測する低周波ビジュアルジェネレータ(LoDiff)とアクションを出力する高周波拡散ポリシー(HiDiff)である。
私たちの重要な洞察は、ロボットポリシーが完全に認知されたフレームを必要とせず、単一の認知ステップで生成された低解像度の潜伏剤に頼ることができるということです。
MinDがRL-Benchで63%の成功率、実世界のFrankaタスクで60%、11.3FPSで稼働
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z) - Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets [7.667819384855409]
我々は、ビデオとアクションデータの両方を政策学習に活用できるフレームワークUnified World Models (UWM)を提案する。
各拡散時間ステップを制御することにより、UWMはポリシー、フォワードダイナミクス、逆ダイナミクス、ビデオジェネレータを柔軟に表現することができる。
以上の結果から,UWMは大規模で異種なデータセットをスケーラブルなロボット学習に活用する上で,有望なステップとなることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T17:38:59Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。
我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。
広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文 参考訳(メタデータ) (2025-02-28T21:38:17Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。