論文の概要: ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
- arxiv url: http://arxiv.org/abs/2501.04698v1
- Date: Wed, 08 Jan 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:48.107250
- Title: ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
- Title(参考訳): ConceptMaster: テスト時間チューニングのない拡散変圧器モデルのマルチコンセプトビデオカスタマイズ
- Authors: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai,
- Abstract要約: マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本研究では、カスタマイズされたビデオにおける概念の忠実さを維持しつつ、アイデンティティ分離の課題を効果的に解決する革新的なフレームワークであるConceptMasterを紹介する。
具体的には,拡散モデルに単体で注入された非結合型マルチコンセプト埋め込みを学習するための新しい戦略を導入する。
- 参考スコア(独自算出の注目度): 40.70596166863986
- License:
- Abstract: Text-to-video generation has made remarkable advancements through diffusion models. However, Multi-Concept Video Customization (MCVC) remains a significant challenge. We identify two key challenges in this task: 1) the identity decoupling problem, where directly adopting existing customization methods inevitably mix attributes when handling multiple concepts simultaneously, and 2) the scarcity of high-quality video-entity pairs, which is crucial for training such a model that represents and decouples various concepts well. To address these challenges, we introduce ConceptMaster, an innovative framework that effectively tackles the critical issues of identity decoupling while maintaining concept fidelity in customized videos. Specifically, we introduce a novel strategy of learning decoupled multi-concept embeddings that are injected into the diffusion models in a standalone manner, which effectively guarantees the quality of customized videos with multiple identities, even for highly similar visual concepts. To further overcome the scarcity of high-quality MCVC data, we carefully establish a data construction pipeline, which enables systematic collection of precise multi-concept video-entity data across diverse concepts. A comprehensive benchmark is designed to validate the effectiveness of our model from three critical dimensions: concept fidelity, identity decoupling ability, and video generation quality across six different concept composition scenarios. Extensive experiments demonstrate that our ConceptMaster significantly outperforms previous approaches for this task, paving the way for generating personalized and semantically accurate videos across multiple concepts.
- Abstract(参考訳): テキスト・ビデオ生成は拡散モデルによって顕著な進歩を遂げた。
しかし、MCVC(Multi-Concept Video Customization)は依然として大きな課題である。
このタスクにおける2つの重要な課題を特定します。
1)複数の概念を同時に扱う際の属性を必然的に混在させる既存のカスタマイズ手法を直接採用するアイデンティティ分離問題
2)高品質なビデオ・エンティリティペアの不足は,様々な概念をうまく表現・分離するモデルの構築に不可欠である。
これらの課題に対処するために、カスタマイズされたビデオにおける概念の忠実さを維持しながら、アイデンティティ分離の重要な問題に効果的に取り組む革新的なフレームワークであるConceptMasterを紹介します。
具体的には、複数の同一性を持つカスタマイズされたビデオの品質を効果的に保証し、非常に類似した視覚概念であっても、独立して拡散モデルに注入される分離されたマルチコンセプト埋め込みを学習する新しい戦略を導入する。
高品質なMCVCデータの不足を克服するため,我々は,多様な概念にまたがる正確なマルチコンセプトビデオエンテントデータの体系的な収集を可能にする,データ構築パイプラインを慎重に構築する。
総合的なベンチマークは、概念の忠実性、アイデンティティの疎結合性、および6つの異なる概念構成シナリオにおけるビデオ生成品質の3つの重要な側面から、モデルの有効性を検証するために設計されている。
大規模な実験により、私たちのConceptMasterは、このタスクの以前のアプローチを大幅に上回っており、パーソナライズされ、セマンティックに正確なビデオを生成する方法が、複数のコンセプトにわたって実現されている。
関連論文リスト
- MC-LLaVA: Multi-Concept Personalized Vision-Language Model [44.325777035345695]
現在の視覚言語モデル(VLM)は、視覚的質問応答を含む様々なタスクにまたがる例外的な能力を示している。
本稿では,MC-LLaVA と呼ばれるマルチコンセプトパーソナライズ手法と高品質なマルチコンセプトパーソナライズデータセットを提案する。
我々は、MC-LLaVAが印象的なマルチコンセプトパーソナライズされた応答を達成できることを実証するために、総合的な質的、定量的な実験を行う。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - MultiBooth: Towards Generating All Your Concepts in an Image from Text [29.02126551676985]
本稿では,テキストからの画像生成において,マルチコンセプトをカスタマイズするための新しい,効率的な手法であるMultiBoothを紹介する。
単一概念学習フェーズでは,多モード画像エンコーダと効率的な概念符号化技術を用いて,各概念の簡潔かつ識別的な表現を学習する。
多概念統合フェーズでは、有界ボックスを用いて、相互注意マップ内の各概念の生成領域を定義する。
論文 参考訳(メタデータ) (2024-04-22T14:47:54Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。