論文の概要: MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.13370v2
- Date: Fri, 06 Dec 2024 07:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 16:26:41.522875
- Title: MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
- Title(参考訳): MagicTailor: テキスト-画像拡散モデルにおけるコンポーネント制御可能なパーソナライゼーション
- Authors: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng,
- Abstract要約: 概念内の個々のコンポーネントをカスタマイズし、再構成できる新しいタスクである、コンポーネント制御可能なパーソナライゼーションを導入する。
この課題は、望ましくない要素が概念を歪ませる意味汚染と、目的とする概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。
動的マスケド・デグラデーション(Dynamic Masked Degradation, 動的マスケド・デグラデーション, 動的マスケド・デグラデーション)を用いて、望まない視覚的セマンティクスを適応的に摂動し、望まれる視覚的セマンティクスをよりバランスよく学習するために、デュアルストリーム・バランシング(Dual-Stream Balancing)を設計する。
- 参考スコア(独自算出の注目度): 51.1034358143232
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent text-to-image models generate high-quality images from text prompts but lack precise control over specific components within visual concepts. Therefore, we introduce component-controllable personalization, a new task that allows users to customize and reconfigure individual components within concepts. This task faces two challenges: semantic pollution, where undesirable elements distort the concept, and semantic imbalance, which leads to disproportionate learning of the target concept and component. To address these, we design MagicTailor, a framework that uses Dynamic Masked Degradation to adaptively perturb unwanted visual semantics and Dual-Stream Balancing for more balanced learning of desired visual semantics. The experimental results show that MagicTailor outperforms existing methods in this task and enables more personalized, nuanced, and creative image generation.
- Abstract(参考訳): 最近のテキスト画像モデルは、テキストプロンプトから高品質な画像を生成するが、視覚概念内の特定のコンポーネントを正確に制御することができない。
そこで我々は,概念内の個々のコンポーネントをカスタマイズし,再構成できる新しいタスクである,コンポーネント制御可能なパーソナライゼーションを導入した。
この課題は、望ましくない要素が概念を歪ませる意味汚染と、目的とする概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。
これらの問題に対処するために、動的マスケド・デグラデーション(Dynamic Masked Degradation)を使用して、望ましくない視覚意味論を適応的に摂動するフレームワークMagicTailorと、望ましい視覚意味論のよりバランスの取れた学習のためのデュアルストリーム・バランシングを設計する。
実験の結果、MagicTailorは既存の手法よりも優れており、よりパーソナライズされ、ニュアンスされ、創造的な画像生成を可能にしている。
関連論文リスト
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - Zero-Shot Visual Concept Blending Without Text Guidance [0.0]
視覚概念ブレンディング」は、複数の参照画像の特徴をソース画像に転送するきめ細かい制御を提供する。
本手法は, テクスチャ, 形状, 動き, スタイル, 抽象的な概念変換の柔軟な伝達を可能にする。
論文 参考訳(メタデータ) (2025-03-27T08:56:33Z) - FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [0.0]
複数のパーソナライズされた概念を単一のイメージに統合する手法は、テキスト・ツー・イメージ(T2I)生成の分野で大きな注目を集めている。
既存の手法では、非個人化領域の歪みにより、複数のオブジェクトを持つ複雑なシーンのパフォーマンス劣化を経験する。
FlipConceptは、複数のパーソナライズされた概念を、追加のチューニングを必要とせず、シームレスに単一のイメージに統合する新しいアプローチである。
論文 参考訳(メタデータ) (2025-02-21T04:37:18Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文 参考訳(メタデータ) (2024-08-26T15:08:12Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Key-Locked Rank One Editing for Text-to-Image Personalization [43.195870616558935]
本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。
Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。
Perfusionは質的・量的両面で強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-02T17:56:06Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。