Fugu-MT 論文翻訳(概要): MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

論文の概要: MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2410.13370v1
Date: Thu, 17 Oct 2024 09:22:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.845563
Title: MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
Title（参考訳）: MagicTailor: テキスト-画像拡散モデルにおけるコンポーネント制御可能なパーソナライゼーション
Authors: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng,
Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
参考スコア（独自算出の注目度）: 51.1034358143232
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩により、テキスト・プロンプトから高品質な画像を作成することが可能になったが、特定の視覚概念を正確に制御して画像を生成するのに苦戦している。既存のアプローチでは、参照イメージから学習することで、特定の概念を再現することができるが、概念内の個々のコンポーネントを細かくカスタマイズする柔軟性は欠如している。本稿では、視覚的概念をパーソナライズする際、ユーザが特定のコンポーネントを再構成できるようにすることで、T2Iモデルのバウンダリを押し上げる新しいタスクである、コンポーネント制御可能なパーソナライズを提案する。この課題は、セマンティックな視覚要素がパーソナライズされた概念を損なうセマンティックな汚染と、概念とコンポーネントの不均質な学習を引き起こすセマンティックな不均衡という2つの主要な障害のために特に困難である。これらの課題を克服するために、動的マスケド・デグラデーション(DM-Deg)を利用した革新的なフレームワークであるMagicTailorを設計し、望まない視覚的セマンティクスを動的に摂動し、Dual-Stream Balancing(DS-Bal)を用いて、望ましい視覚的セマンティクスのためのバランス学習パラダイムを確立する。大規模な比較、改善、分析により、MagicTailorは、この挑戦的なタスクに長けているだけでなく、実用的なアプリケーションにも大きな可能性を秘めており、よりニュアンスでクリエイティブな画像生成の道を開いたことが示される。

関連論文リスト

DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。 DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文参考訳（メタデータ） (2025-04-24T08:10:10Z)
Zero-Shot Visual Concept Blending Without Text Guidance [0.0]
視覚概念ブレンディング」は、複数の参照画像の特徴をソース画像に転送するきめ細かい制御を提供する。本手法は, テクスチャ, 形状, 動き, スタイル, 抽象的な概念変換の柔軟な伝達を可能にする。
論文参考訳（メタデータ） (2025-03-27T08:56:33Z)
FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [0.0]
複数のパーソナライズされた概念を単一のイメージに統合する手法は、テキスト・ツー・イメージ(T2I)生成の分野で大きな注目を集めている。既存の手法では、非個人化領域の歪みにより、複数のオブジェクトを持つ複雑なシーンのパフォーマンス劣化を経験する。 FlipConceptは、複数のパーソナライズされた概念を、追加のチューニングを必要とせず、シームレスに単一のイメージに統合する新しいアプローチである。
論文参考訳（メタデータ） (2025-02-21T04:37:18Z)
DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-02T22:29:14Z)
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文参考訳（メタデータ） (2024-08-26T15:08:12Z)
Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文参考訳（メタデータ） (2024-05-30T05:36:32Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文参考訳（メタデータ） (2024-05-11T05:01:53Z)
Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-27T13:31:39Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。 LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文参考訳（メタデータ） (2023-09-26T02:22:39Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Key-Locked Rank One Editing for Text-to-Image Personalization [43.195870616558935]
本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。 Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。 Perfusionは質的・量的両面で強いベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-02T17:56:06Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文参考訳（メタデータ） (2023-03-15T17:07:45Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)
IR-GAN: Image Manipulation with Linguistic Instruction by Increment Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文参考訳（メタデータ） (2022-04-02T07:48:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。