論文の概要: Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching
- arxiv url: http://arxiv.org/abs/2511.08061v1
- Date: Wed, 12 Nov 2025 01:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.620405
- Title: Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching
- Title(参考訳): 潜時結合と仮設条件流整合による拡散モデルの恒常性と急激な多様性のモデリング
- Authors: Aditi Singhania, Arushi Jain, Krutik Malani, Riddhi Dhawan, Souymodip Chakraborty, Vineet Batra, Ankit Phogat,
- Abstract要約: 被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
- 参考スコア(独自算出の注目度): 1.9270911143386336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Subject-driven image generation aims to synthesize novel depictions of a specific subject across diverse contexts while preserving its core identity features. Achieving both strong identity consistency and high prompt diversity presents a fundamental trade-off. We propose a LoRA fine-tuned diffusion model employing a latent concatenation strategy, which jointly processes reference and target images, combined with a masked Conditional Flow Matching (CFM) objective. This approach enables robust identity preservation without architectural modifications. To facilitate large-scale training, we introduce a two-stage Distilled Data Curation Framework: the first stage leverages data restoration and VLM-based filtering to create a compact, high-quality seed dataset from diverse sources; the second stage utilizes these curated examples for parameter-efficient fine-tuning, thus scaling the generation capability across various subjects and contexts. Finally, for filtering and quality assessment, we present CHARIS, a fine-grained evaluation framework that performs attribute-level comparisons along five key axes: identity consistency, prompt adherence, region-wise color fidelity, visual quality, and transformation diversity.
- Abstract(参考訳): 主観駆動画像生成は、主観的特徴を保ちながら、様々な文脈にまたがる特定の対象の新たな描写を合成することを目的としている。
強いアイデンティティ一貫性と高い迅速な多様性の両方を達成することは、基本的なトレードオフを示します。
本稿では,参照画像とターゲット画像とを協調処理する潜在結合戦略と,マスク付き条件付きフローマッチング(CFM)を併用したLoRA微調整拡散モデルを提案する。
このアプローチは、アーキテクチャの変更なしに堅牢なID保存を可能にする。
大規模トレーニングを容易にするために,第1段階はデータ復元とVLMに基づくフィルタリングを活用して,さまざまなソースからコンパクトで高品質なシードデータセットを生成する2段階のDistilled Data Curation Frameworkを導入する。
最後に、フィルタと品質評価のために、CHARISを提案する。CHARISは属性レベルの比較を5つの重要な軸に沿って行う、きめ細かい評価フレームワークである。
関連論文リスト
- WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - Dual-Granularity Cross-Modal Identity Association for Weakly-Supervised Text-to-Person Image Matching [7.1469465755934785]
弱教師付きテキスト対人画像マッチングは、大規模な手動ラベル付きサンプルへのモデル依存を減らすための重要なアプローチである。
本稿では,複雑な一対多の同一性関係を予測するために,二重粒度同一性関連機構を提案する。
実験結果から,提案手法はクロスモーダルマッチングの精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-07-09T10:59:13Z) - Noise Consistency Regularization for Improved Subject-Driven Image Synthesis [55.75426086791612]
微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。
既存の微調整手法は、モデルが確実に被写体を捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を減少させる過適合の2つの主要な問題に悩まされる。
拡散微調整のための2つの補助的整合性損失を提案する。第1に、事前(非対象)画像に対する予測拡散雑音が事前訓練されたモデルと一致し、忠実度が向上する。
論文 参考訳(メタデータ) (2025-06-06T19:17:37Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation [0.6554326244334868]
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
論文 参考訳(メタデータ) (2025-05-17T03:51:18Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。