論文の概要: ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
- arxiv url: http://arxiv.org/abs/2501.04698v2
- Date: Tue, 13 May 2025 06:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 16:45:08.784878
- Title: ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
- Title(参考訳): ConceptMaster: テスト時間チューニングのない拡散変圧器モデルのマルチコンセプトビデオカスタマイズ
- Authors: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai,
- Abstract要約: マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本稿では,ID分離問題に効果的に対処する新しいフレームワークであるConceptMasterを紹介する。
ビデオのカスタマイズタスクでは,ConceptMasterが従来よりも大幅に優れていたことが示される。
- 参考スコア(独自算出の注目度): 40.70596166863986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has made remarkable advancements through diffusion models. However, Multi-Concept Video Customization (MCVC) remains a significant challenge. We identify two key challenges for this task: 1) the identity decoupling issue, where directly adopting existing customization methods inevitably mix identity attributes when handling multiple concepts simultaneously, and 2) the scarcity of high-quality video-entity pairs, which is crucial for training a model that can well represent and decouple various customized concepts in video generation. To address these challenges, we introduce ConceptMaster, a novel framework that effectively addresses the identity decoupling issues while maintaining concept fidelity in video customization. Specifically, we propose to learn decoupled multi-concept embeddings and inject them into diffusion models in a standalone manner, which effectively guarantees the quality of customized videos with multiple identities, even for highly similar visual concepts. To overcome the scarcity of high-quality MCVC data, we establish a data construction pipeline, which enables collection of high-quality multi-concept video-entity data pairs across diverse scenarios. A multi-concept video evaluation set is further devised to comprehensively validate our method from three dimensions, including concept fidelity, identity decoupling ability, and video generation quality, across six different concept composition scenarios. Extensive experiments demonstrate that ConceptMaster significantly outperforms previous methods for video customization tasks, showing great potential to generate personalized and semantically accurate content for video diffusion models.
- Abstract(参考訳): テキスト・ビデオ生成は拡散モデルによって顕著な進歩を遂げた。
しかし、MCVC(Multi-Concept Video Customization)は依然として大きな課題である。
このタスクの2つの重要な課題を特定します。
1)複数の概念を同時に扱う際に、必然的にアイデンティティ属性を混在させる既存のカスタマイズメソッドを直接採用するアイデンティティ分離問題。
2)高品質なビデオ・エンティリティペアの不足は,ビデオ生成における様々なカスタマイズされた概念を適切に表現・分離できるモデルの訓練に不可欠である。
これらの課題に対処するため,ビデオのカスタマイズにおける概念の忠実さを維持しつつ,アイデンティティ分離問題に効果的に対処する新しいフレームワークであるConceptMasterを紹介した。
具体的には、分離されたマルチコンセプト埋め込みを学習し、それらを独立した方法で拡散モデルに注入することで、非常に類似した視覚概念であっても、複数のアイデンティティを持つカスタマイズされたビデオの品質を効果的に保証することを提案する。
高品質なMCVCデータの不足を克服するため,さまざまなシナリオにまたがる高品質なマルチコンセプトビデオエンタリティデータペアの収集を可能にするデータ構築パイプラインを構築した。
さらに, 概念の忠実度, アイデンティティの疎結合性, 映像生成品質の3次元から, 6種類の概念構成シナリオを包括的に検証するために, マルチコンセプト映像評価セットを考案した。
大規模な実験により、ConceptMasterはビデオカスタマイズタスクの従来の方法よりも大幅に優れており、ビデオ拡散モデルのためのパーソナライズされた、セマンティックなコンテンツを生成する大きな可能性を示している。
関連論文リスト
- MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts [49.63959518905243]
マルチコンセプト統合に基づくビデオパーソナライズのための新しい手法を提案する。
Movie Weaverは、顔、体、動物画像を含む複数のコンセプトをシームレスに1つのビデオに織り込み、1つのモデルで柔軟な組み合わせを可能にする。
評価の結果,Movie Weaverはアイデンティティの保存と全体的な品質において,既存のマルチコンセプトビデオパーソナライズ手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T22:03:26Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。