論文の概要: OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions
- arxiv url: http://arxiv.org/abs/2506.23361v1
- Date: Sun, 29 Jun 2025 18:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.847307
- Title: OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions
- Title(参考訳): OmniVCus:マルチモーダル制御条件によるフィードフォワード映像のカスタマイズ
- Authors: Yuanhao Cai, He Zhang, Xi Chen, Jinbo Xing, Yiwei Hu, Yuqian Zhou, Kai Zhang, Zhifei Zhang, Soo Ye Kim, Tianyu Wang, Yulun Zhang, Xiaokang Yang, Zhe Lin, Alan Yuille,
- Abstract要約: 本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
- 参考スコア(独自算出の注目度): 96.31455979495398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing feedforward subject-driven video customization methods mainly study single-subject scenarios due to the difficulty of constructing multi-subject training data pairs. Another challenging problem that how to use the signals such as depth, mask, camera, and text prompts to control and edit the subject in the customized video is still less explored. In this paper, we first propose a data construction pipeline, VideoCus-Factory, to produce training data pairs for multi-subject customization from raw videos without labels and control signals such as depth-to-video and mask-to-video pairs. Based on our constructed data, we develop an Image-Video Transfer Mixed (IVTM) training with image editing data to enable instructive editing for the subject in the customized video. Then we propose a diffusion Transformer framework, OmniVCus, with two embedding mechanisms, Lottery Embedding (LE) and Temporally Aligned Embedding (TAE). LE enables inference with more subjects by using the training subjects to activate more frame embeddings. TAE encourages the generation process to extract guidance from temporally aligned control signals by assigning the same frame embeddings to the control and noise tokens. Experiments demonstrate that our method significantly surpasses state-of-the-art methods in both quantitative and qualitative evaluations. Video demos are at our project page: https://caiyuanhao1998.github.io/project/OmniVCus/. Our code will be released at https://github.com/caiyuanhao1998/Open-OmniVCus
- Abstract(参考訳): 既存のフィードフォワードの主観的ビデオカスタマイズ手法は、多目的学習データペアの構築が困難であるため、主にシングルオブジェクトシナリオを研究する。
奥行き、マスク、カメラ、テキストなどの信号の使い方が、カスタマイズされたビデオで被写体を制御したり編集したりするという、もうひとつの難しい問題は、まだ調査されていない。
本稿ではまず,ラベルのない生ビデオから多目的カスタマイズのためのトレーニングデータペアを作成するためのデータ構築パイプラインであるVideoCus-Factoryを提案する。
構築したデータに基づいて、画像編集データを用いた画像-ビデオ移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
次に,Luttery Embedding (LE)とTemporally Aligned Embedding (TAE)の2つの埋め込み機構を備えた拡散トランスフォーマーフレームワークOmniVCusを提案する。
LEは、トレーニング対象を用いてより多くのフレーム埋め込みを活性化することにより、より多くの被験者による推論を可能にする。
TAEは、制御トークンとノイズトークンに同じフレーム埋め込みを割り当てることで、時間的に整列した制御信号からガイダンスを抽出する。
実験により,本手法は定量評価と定性評価の両方において最先端の手法を大幅に上回っていることが示された。
ビデオデモはプロジェクトページにある。 https://caiyuanhao1998.github.io/project/OmniVCus/。
私たちのコードはhttps://github.com/caiyuanhao1998/Open-OmniVCusで公開されます。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。