論文の概要: IdGlow: Dynamic Identity Modulation for Multi-Subject Generation
- arxiv url: http://arxiv.org/abs/2603.00607v1
- Date: Sat, 28 Feb 2026 11:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.287486
- Title: IdGlow: Dynamic Identity Modulation for Multi-Subject Generation
- Title(参考訳): IdGlow:マルチオブジェクト生成のための動的アイデンティティ変調
- Authors: Honghao Cai, Xiangyuan Wang, Yunhao Bai, Tianze Zhou, Sijie Xu, Yuyang Hao, Zezhou Cui, Yuyuan Yang, Wei Zhu, Yibo Chen, Xu Tang, Yao Hu, Zhen Li,
- Abstract要約: We present IdGlow, a mask-free, progressive two-stage framework built on Flow Matching diffusion model。
教師付き微調整(SFT)の段階では、拡散生成力学に対応するタスク適応型時間ステップスケジューリングを導入する。
第2段階では,マルチオブジェクトアーティファクトを同時に除去するために,重み付きマージンの定式化を施したファイングラインド・グループレベル直接選好最適化(DPO)を設計する。
- 参考スコア(独自算出の注目度): 23.20674988897558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-subject image generation requires seamlessly harmonizing multiple reference identities within a coherent scene. However, existing methods relying on rigid spatial masks or localized attention often struggle with the "stability-plasticity dilemma," particularly failing in tasks that require complex structural deformations, such as identity-preserving age transformation. To address this, we present IdGlow, a mask-free, progressive two-stage framework built upon Flow Matching diffusion models. In the supervised fine-tuning (SFT) stage, we introduce task-adaptive timestep scheduling aligned with diffusion generative dynamics: a linear decay schedule that progressively relaxes constraints for natural group composition, and a temporal gating mechanism that concentrates identity injection within a critical semantic window, successfully preserving adult facial semantics without overriding child-like anatomical structures. To resolve attribute leakage and semantic ambiguity without explicit layout inputs, we further integrate a badcase-driven Vision-Language Model (VLM) for precise, context-aware prompt synthesis. In the second stage, we design a Fine-Grained Group-Level Direct Preference Optimization (DPO) with a weighted margin formulation to simultaneously eliminate multi-subject artifacts, elevate texture harmony, and recalibrate identity fidelity towards real-world distributions. Extensive experiments on two challenging benchmarks -- direct multi-person fusion and age-transformed group generation -- demonstrate that IdGlow fundamentally mitigates the stability-plasticity conflict, achieving a superior Pareto balance between state-of-the-art facial fidelity and commercial-grade aesthetic quality.
- Abstract(参考訳): マルチオブジェクト画像生成は、コヒーレントシーン内で複数の参照IDをシームレスに調和させる必要がある。
しかし、厳密な空間マスクや局所的な注意を頼りにしている既存の手法は「安定性・塑性ジレンマ」に苦しむことが多く、特にアイデンティティ保存年齢変換のような複雑な構造変化を必要とするタスクでは失敗する。
そこで我々は,フローマッチング拡散モデルに基づくマスクフリーでプログレッシブな2段階フレームワークIdGlowを提案する。
教師付き微調整(SFT)段階において,自然群構成の制約を段階的に緩和する線形減衰スケジュールと,有意な意味窓内にアイデンティティ注入を集中させ,子どものような解剖学的構造をオーバーライドすることなく,成人の顔のセマンティクスを適切に保存する時間的ゲーティング機構を導入する。
属性のリークと意味的あいまいさを明示的なレイアウト入力なしで解決するために、我々はさらにバッドケース駆動型ビジョン・ランゲージ・モデル(VLM)を統合し、正確な文脈対応のプロンプト合成を行う。
第2段階では、重み付きマージンの定式化を施したファイングラインドグループレベル直接選好最適化(DPO)を設計し、マルチオブジェクトアーティファクトを同時に排除し、テクスチャ調和を高め、実世界の分布に対するアイデンティティの忠実度を補正する。
直接多対人融合と年齢変換グループ生成という2つの挑戦的なベンチマークに関する大規模な実験は、IdGlowが安定性と塑性の対立を根本的に緩和し、最先端の顔の忠実さと商業レベルの美的品質のパレートバランスが優れていることを実証している。
関連論文リスト
- Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration [31.878334664450776]
セマンティックロジックと連続的なテクスチャ生成を統合した階層型フレームワークである textbfPrefRestore を提案する。
本手法は,2つの相補的戦略により,この情報格差を根本的に解決する。
Pref-Restoreは、合成および実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-27T11:50:31Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文 参考訳(メタデータ) (2026-01-05T13:26:02Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching [1.9270911143386336]
被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:00:32Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Noise Consistency Regularization for Improved Subject-Driven Image Synthesis [55.75426086791612]
微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。
既存の微調整手法は、モデルが確実に被写体を捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を減少させる過適合の2つの主要な問題に悩まされる。
拡散微調整のための2つの補助的整合性損失を提案する。第1に、事前(非対象)画像に対する予測拡散雑音が事前訓練されたモデルと一致し、忠実度が向上する。
論文 参考訳(メタデータ) (2025-06-06T19:17:37Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。