論文の概要: Multi-subject Open-set Personalization in Video Generation
- arxiv url: http://arxiv.org/abs/2501.06187v1
- Date: Fri, 10 Jan 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:13.275076
- Title: Multi-subject Open-set Personalization in Video Generation
- Title(参考訳): 映像生成における多目的オープンセットパーソナライズ
- Authors: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov,
- Abstract要約: 我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 110.02124633005516
- License:
- Abstract: Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist $-$ a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.
- Abstract(参考訳): ビデオパーソナライズ手法により、人間、ペット、場所といった特定の概念でビデオを合成することができる。
しかし、既存のメソッドは、制限されたドメインに焦点を当てたり、主題ごとの時間的最適化を必要としたり、1つの主題しかサポートしていない場合が多い。
我々は,ビデオalchemist $-$を,前景オブジェクトと背景の両方に対して,複数オブジェクトを組み込んだオープンセットパーソナライズ機能を備えたビデオモデルとして提示し,時間を要するテスト時間最適化の必要性を排除した。
我々のモデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを相互アテンション層で融合する新しいDiffusion Transformerモジュール上に構築されている。
このような大きなモデルの開発には、データセットと評価という2つの大きな課題がある。
まず、参照画像とビデオのペア化データセットの収集は非常に困難であるため、選択したビデオフレームを参照画像としてサンプリングし、対象のビデオのクリップを合成する。
しかし、モデルはトレーニングビデオに参照フレームを付与し易いが、新しいコンテキストへの一般化には失敗する。
この問題を軽減するため,画像拡張機能を備えた新しい自動データ構築パイプラインを設計する。
第二に、オープンセットのビデオパーソナライゼーションを評価することは、それ自体が課題である。
そこで本研究では,正確な主観的忠実度に着目し,多様なパーソナライズシナリオをサポートするパーソナライズベンチマークを提案する。
最後に,本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っていることを示す。
関連論文リスト
- TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。