論文の概要: DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition
- arxiv url: http://arxiv.org/abs/2504.17349v1
- Date: Thu, 24 Apr 2025 08:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.290245
- Title: DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition
- Title(参考訳): DRC: アンタングル表現合成によるパーソナライズされた画像生成の強化
- Authors: Yiyan Xu, Wuqiang Zheng, Wenjie Wang, Fengbin Zhu, Xinting Hu, Yang Zhang, Fuli Feng, Tat-Seng Chua,
- Abstract要約: 大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
- 参考スコア(独自算出の注目度): 69.10628479553709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized image generation has emerged as a promising direction in multimodal content creation. It aims to synthesize images tailored to individual style preferences (e.g., color schemes, character appearances, layout) and semantic intentions (e.g., emotion, action, scene contexts) by leveraging user-interacted history images and multimodal instructions. Despite notable progress, existing methods -- whether based on diffusion models, large language models, or Large Multimodal Models (LMMs) -- struggle to accurately capture and fuse user style preferences and semantic intentions. In particular, the state-of-the-art LMM-based method suffers from the entanglement of visual features, leading to Guidance Collapse, where the generated images fail to preserve user-preferred styles or reflect the specified semantics. To address these limitations, we introduce DRC, a novel personalized image generation framework that enhances LMMs through Disentangled Representation Composition. DRC explicitly extracts user style preferences and semantic intentions from history images and the reference image, respectively, to form user-specific latent instructions that guide image generation within LMMs. Specifically, it involves two critical learning stages: 1) Disentanglement learning, which employs a dual-tower disentangler to explicitly separate style and semantic features, optimized via a reconstruction-driven paradigm with difficulty-aware importance sampling; and 2) Personalized modeling, which applies semantic-preserving augmentations to effectively adapt the disentangled representations for robust personalized generation. Extensive experiments on two benchmarks demonstrate that DRC shows competitive performance while effectively mitigating the guidance collapse issue, underscoring the importance of disentangled representation learning for controllable and effective personalized image generation.
- Abstract(参考訳): パーソナライズされた画像生成は、マルチモーダルコンテンツ作成において有望な方向として現れてきた。
ユーザインタラクションされたヒストリイメージとマルチモーダルインストラクションを活用することで、個々のスタイルの好み(例えば、カラースキーム、キャラクターの外観、レイアウト)と意味的な意図(例えば、感情、アクション、シーンコンテキスト)に合わせた画像を合成することを目的としている。
顕著な進歩にもかかわらず、既存のメソッド -- 拡散モデル、大きな言語モデル、あるいはLMM(Large Multimodal Models)に基づくものであれ -- は、ユーザスタイルの好みや意味的な意図を正確に捉え、融合させるのに苦労している。
特に、最先端のLMMベースの手法は視覚的特徴の絡み合いに悩まされ、生成した画像がユーザの好みのスタイルを保存できなかったり、特定のセマンティクスを反映したりする誘導崩壊につながる。
これらの制約に対処するため、DRCは、Distangled Representation compositionを通してLMMを強化する、パーソナライズされた画像生成フレームワークである。
DRCは、履歴画像と参照画像からユーザスタイルの好みと意味的意図を明示的に抽出し、LMM内の画像生成をガイドするユーザ固有の潜在命令を形成する。
具体的には、2つの重要な学習段階を含む。
1) 二重解答器を用いた解答学習は,難易度重要度サンプリングを伴う再構成駆動型パラダイムにより最適化され,形式的特徴と意味的特徴を明確に区別する。
2)ロバストなパーソナライズド・ジェネレーションのために,意味保存強化を適用したパーソナライズド・モデリング(パーソナライズド・モデリング)。
2つのベンチマークにおいて、DRCが競合性能を示しながら、誘導崩壊問題を効果的に軽減し、制御可能で効果的なパーソナライズされた画像生成におけるアンタングル表現学習の重要性を強調した。
関連論文リスト
- SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
概念内の個々のコンポーネントをカスタマイズし、再構成できる新しいタスクである、コンポーネント制御可能なパーソナライゼーションを導入する。
この課題は、望ましくない要素が概念を歪ませる意味汚染と、目的とする概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。
動的マスケド・デグラデーション(Dynamic Masked Degradation, 動的マスケド・デグラデーション, 動的マスケド・デグラデーション)を用いて、望まない視覚的セマンティクスを適応的に摂動し、望まれる視覚的セマンティクスをよりバランスよく学習するために、デュアルストリーム・バランシング(Dual-Stream Balancing)を設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。
統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。