論文の概要: VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents
- arxiv url: http://arxiv.org/abs/2603.25420v1
- Date: Thu, 26 Mar 2026 13:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.310248
- Title: VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents
- Title(参考訳): VideoWeaver:マルチモーダルなマルチビュービデオ転送
- Authors: George Eskandar, Fengyi Shen, Mohammad Altillawi, Dong Chen, Yang Bai, Liudi Yang, Ziyuan Liu,
- Abstract要約: VideoWeaverは、最初のマルチモーダルマルチビューV2V翻訳フレームワークである。
我々は、異なる拡散時間ステップでビューを訓練し、モデルがジョイントとコンディショナルの両方のビュー分布を学習できるようにする。
実験では、単一ビューの翻訳ベンチマークにおける最先端の性能よりも優れているか類似した性能を示す。
- 参考スコア(独自算出の注目度): 17.66237759970927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in video-to-video (V2V) translation has enabled realistic resimulation of embodied AI demonstrations, a capability that allows pretrained robot policies to be transferable to new environments without additional data collection. However, prior works can only operate on a single view at a time, while embodied AI tasks are commonly captured from multiple synchronized cameras to support policy learning. Naively applying single-view models independently to each camera leads to inconsistent appearance across views, and standard transformer architectures do not scale to multi-view settings due to the quadratic cost of cross-view attention. We present VideoWeaver, the first multimodal multi-view V2V translation framework. VideoWeaver is initially trained as a single-view flow-based V2V model. To achieve an extension to the multi-view regime, we propose to ground all views in a shared 4D latent space derived from a feed-forward spatial foundation model, namely, Pi3. This encourages view-consistent appearance even under wide baselines and dynamic camera motion. To scale beyond a fixed number of cameras, we train views at distinct diffusion timesteps, enabling the model to learn both joint and conditional view distributions. This in turn allows autoregressive synthesis of new viewpoints conditioned on existing ones. Experiments show superior or similar performance to the state-of-the-art on the single-view translation benchmarks and, for the first time, physically and stylistically consistent multi-view translations, including challenging egocentric and heterogeneous-camera setups central to world randomization for robot learning.
- Abstract(参考訳): ビデオ間翻訳(V2V)の最近の進歩は、事前訓練されたロボットポリシーを追加のデータ収集なしで新しい環境に転送できる機能である、具体化されたAIデモの現実的な再現を可能にした。
しかし、事前の作業は一度にひとつのビューでしか実行できません。一方、具体化されたAIタスクは、ポリシー学習をサポートするために、複数の同期カメラから一般的にキャプチャされます。
各カメラに独立してシングルビューモデルを適用すると、ビュー間の不整合が生じるため、標準的なトランスフォーマーアーキテクチャは、クロスビューの注意の二次コストのため、マルチビュー設定にスケールしない。
本稿では,マルチモーダルなV2V翻訳フレームワークであるVideoWeaverを紹介する。
VideoWeaverは当初、単一ビューフローベースのV2Vモデルとしてトレーニングされている。
マルチビューシステムの拡張を実現するため、フィードフォワード空間基盤モデル、すなわちPi3から派生した共有4次元潜伏空間において、すべてのビューをグラウンド化することを提案する。
これにより、広いベースラインとダイナミックカメラモーションの下でも、視野に一貫性のある外観が促進される。
一定数のカメラを超えてスケールするために、異なる拡散時間ステップでビューを訓練し、モデルがジョイントとコンディショナルの両方のビュー分布を学習できるようにする。
これにより、既存の観点で条件付けられた新しい視点の自己回帰合成が可能になる。
実験では、単一ビューの翻訳ベンチマークにおいて最先端または類似のパフォーマンスを示し、ロボット学習の世界のランダム化の中心となる、エゴセントリックで異質なカメラのセットアップに挑戦するなど、物理的およびスタイリスティックに整合した多視点翻訳を初めて行った。
関連論文リスト
- Plenoptic Video Generation [80.3116444692858]
PlenopticDreamerは、同期時間記憶を維持するために生成幻覚を同期するフレームワークである。
中心となる考え方は、マルチインアウトのビデオ条件付きモデルを自己回帰的にトレーニングすることだ。
トレーニングでは,コンバージェンス向上のためのコンテキストスケーリング,エラー蓄積による幻覚への自己条件付け,拡張ビデオ生成をサポートする長時間ビデオコンディショニング機構が組み込まれている。
論文 参考訳(メタデータ) (2026-01-08T18:58:32Z) - Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [55.08100087149101]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。
提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文 参考訳(メタデータ) (2025-03-12T08:26:15Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - InfiniteNature-Zero: Learning Perpetual View Generation of Natural
Scenes from Single Images [83.37640073416749]
本研究では,1つの視点から自然シーンのフライスルー映像を学習する手法を提案する。
この能力は、カメラのポーズやシーンの複数のビューを必要とせずに、1枚の写真から学習される。
論文 参考訳(メタデータ) (2022-07-22T15:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。