論文の概要: Video-As-Prompt: Unified Semantic Control for Video Generation
- arxiv url: http://arxiv.org/abs/2510.20888v1
- Date: Thu, 23 Oct 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.289132
- Title: Video-As-Prompt: Unified Semantic Control for Video Generation
- Title(参考訳): Video-As-Prompt:ビデオ生成のための統一セマンティック制御
- Authors: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu,
- Abstract要約: 本稿では,ビデオ・アズ・プロンプト(VAP)を紹介した。
VAPは参照ビデオを直接的なセマンティックプロンプトとして利用し、プラグアンドプレイのMixture-of-Transformers (MoT)エキスパートを通じて凍結されたビデオ拡散トランスフォーマー(DiT)を誘導する。
このアプローチを推進し,今後の研究を促進するために,100万以上のペアビデオを備えたセマンティックコントロールビデオ生成のための最大のデータセットであるVAP-Dataを構築した。
- 参考スコア(独自算出の注目度): 20.82918677586706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified, generalizable semantic control in video generation remains a critical open challenge. Existing methods either introduce artifacts by enforcing inappropriate pixel-wise priors from structure-based controls, or rely on non-generalizable, condition-specific finetuning or task-specific architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes this problem as in-context generation. VAP leverages a reference video as a direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture prevents catastrophic forgetting and is guided by a temporally biased position embedding that eliminates spurious mapping priors for robust context retrieval. To power this approach and catalyze future research, we built VAP-Data, the largest dataset for semantic-controlled video generation with over 100K paired videos across 100 semantic conditions. As a single unified model, VAP sets a new state-of-the-art for open-source methods, achieving a 38.7% user preference rate that rivals leading condition-specific commercial models. VAP's strong zero-shot generalization and support for various downstream applications mark a significant advance toward general-purpose, controllable video generation.
- Abstract(参考訳): ビデオ生成における統一的で一般化可能なセマンティックコントロールは、依然として重要なオープンチャレンジである。
既存の手法は、構造ベースの制御から不適切なピクセル単位の先行を強制することによってアーティファクトを導入するか、あるいは非汎用的で条件固有の微調整やタスク固有のアーキテクチャに依存している。
本稿では,ビデオ・アズ・プロンプト(VAP)を紹介した。
VAPは参照ビデオを直接的なセマンティックプロンプトとして利用し、プラグアンドプレイのMixture-of-Transformers (MoT)エキスパートを通じて凍結されたビデオ拡散トランスフォーマー(DiT)を誘導する。
このアーキテクチャは、破滅的な忘れを防ぎ、強固なコンテキスト検索のための素早いマッピング先行を排除した、時間偏差のある位置埋め込みによって導かれる。
このアプローチを推進し、将来の研究を促進するために、100のセマンティック条件をまたいだ100万以上のペアビデオを備えた、セマンティック制御ビデオ生成のための最大のデータセットであるVAP-Dataを構築した。
単一の統一モデルとして、VAPはオープンソース手法の最先端を新たに設定し、主要な条件固有の商用モデルに匹敵する38.7%のユーザー嗜好率を達成した。
VAPの強力なゼロショットの一般化と様々なダウンストリームアプリケーションのサポートは、汎用的で制御可能なビデオ生成への大きな進歩を示している。
関連論文リスト
- UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution [62.10676832966289]
カスケードビデオ超解像は、大規模な基礎モデルを用いて高解像度ビデオを生成するための有望な技術として登場した。
UniMMVSRは,テキスト,画像,ビデオを含むハイブリッドモード条件を組み込んだ最初の統合ビデオ超解像フレームワークである。
実験の結果、UniMMVSRは既存の手法よりも優れており、より細部が良く、マルチモーダル条件への適合度が高いビデオを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-09T12:25:16Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Standardizing Generative Face Video Compression using Supplemental Enhancement Information [32.11815096626186]
本稿では,補助強調情報(SEI)を用いたGFVC(Generative Face Video Compression)アプローチを提案する。
この記事執筆時点では,SEIメッセージを用いたGFVC方式がVersatile Supplemental Enhancement Information (VSEI)標準のドラフト修正に含まれている。
著者の知識を最大限活用するために、JVETが提案したSEIベースのGFVCアプローチは、生成ビデオ圧縮のための最初の標準化活動である。
論文 参考訳(メタデータ) (2024-10-19T13:37:24Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。