論文の概要: MV-S2V: Multi-View Subject-Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2601.17756v1
- Date: Sun, 25 Jan 2026 09:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.319301
- Title: MV-S2V: Multi-View Subject-Consistent Video Generation
- Title(参考訳): MV-S2V:マルチビュー・サブジェクト・コンスタント・ビデオ・ジェネレーション
- Authors: Ziyang Song, Xinyu Gong, Bangya Liu, Zelin Zhao,
- Abstract要約: 本稿では,Multi-View S2V (MV-S2V) タスクを提案する。
MV-S2Vは、複数の参照ビューからビデオを合成し、3Dレベルの被写体一貫性を強制する。
本フレームワークは,マルチビュー参照画像と高品質な視覚出力により,優れた3次元オブジェクト整合性を実現する。
- 参考スコア(独自算出の注目度): 14.479120381560621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Subject-to-Video Generation (S2V) methods have achieved high-fidelity and subject-consistent video generation, yet remain constrained to single-view subject references. This limitation renders the S2V task reducible to an S2I + I2V pipeline, failing to exploit the full potential of video subject control. In this work, we propose and address the challenging Multi-View S2V (MV-S2V) task, which synthesizes videos from multiple reference views to enforce 3D-level subject consistency. Regarding the scarcity of training data, we first develop a synthetic data curation pipeline to generate highly customized synthetic data, complemented by a small-scale real-world captured dataset to boost the training of MV-S2V. Another key issue lies in the potential confusion between cross-subject and cross-view references in conditional generation. To overcome this, we further introduce Temporally Shifted RoPE (TS-RoPE) to distinguish between different subjects and distinct views of the same subject in reference conditioning. Our framework achieves superior 3D subject consistency w.r.t. multi-view reference images and high-quality visual outputs, establishing a new meaningful direction for subject-driven video generation. Our project page is available at <a href="https://szy-young.github.io/mv-s2v">this URL</a>
- Abstract(参考訳): 既存のサブジェクト・トゥ・ビデオ・ジェネレーション(S2V)手法は、高忠実で一貫性のあるビデオ・ジェネレーションを実現しているが、シングルビュー・サブジェクト・リファレンスには制約が残されている。
この制限により、S2VタスクはS2I+I2Vパイプラインに再計算可能となり、ビデオ被写体制御の可能性を最大限に活用できなかった。
本研究では,マルチビューS2V(MV-S2V)タスクを提案し,複数の参照ビューから映像を合成して3Dレベルの被写体一貫性を強制する。
トレーニングデータの不足に関して、我々はまず、MV-S2Vのトレーニングを促進するために、小規模な実世界のキャプチャーデータセットを補完する高度にカスタマイズされた合成データを生成する合成データキュレーションパイプラインを開発する。
もう一つの重要な問題は、条件生成におけるクロスオブジェクトとクロスビュー参照の潜在的な混乱である。
これを解決するために、参照条件付けにおいて、異なる対象と同一対象の異なる視点を区別するために、TS-RoPE(Temporally Shifted RoPE)を導入する。
提案フレームワークは,マルチビュー参照画像と高品質な視覚出力で優れた3Dオブジェクト整合性を実現し,被験者駆動ビデオ生成のための新たな意味のある方向を確立する。
プロジェクトページは<a href="https://szy-young.github.io/mv-s2v"> this URL</a>で公開されている。
関連論文リスト
- Scaling Zero-Shot Reference-to-Video Generation [45.15099584926898]
明示的なR2Vデータを必要としないスケーラブルなゼロショットフレームワークであるSaberを紹介します。
Saberはマスク付きトレーニング戦略と注意に基づくモデル設計を採用し、アイデンティティ一貫性と参照認識の表現を学習する。
OpenS2V-Evalベンチマークでは、R2Vデータで訓練された方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-07T16:10:25Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - SkyReels-A2: Compose Anything in Video Diffusion Transformers [27.324119455991926]
本稿では、任意の視覚要素を合成ビデオに組み込むことができる制御可能なビデオ生成フレームワークSkyReels-A2を提案する。
このタスク要素をビデオ(E2V)と呼び、各参照要素の忠実さを保ち、シーンのコヒーレントな構成を確保し、自然な出力を達成することが主な課題である。
本稿では,多要素表現を生成プロセスに注入し,要素固有の一貫性とグローバルコヒーレンスとテキストアライメントのバランスをとる,新しい画像-テキスト共同埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2025-04-03T09:50:50Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。