論文の概要: FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus
- arxiv url: http://arxiv.org/abs/2509.01181v1
- Date: Mon, 01 Sep 2025 07:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.568777
- Title: FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus
- Title(参考訳): FocusDPO:適応焦点を用いた多目的パーソナライズ画像生成のための動的選好最適化
- Authors: Qiaoqiao Jin, Siming Fu, Dong She, Weinan Jia, Hualiang Wang, Mu Liu, Jidong Jiang,
- Abstract要約: 多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
- 参考スコア(独自算出の注目度): 10.615833390806486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-subject personalized image generation aims to synthesize customized images containing multiple specified subjects without requiring test-time optimization. However, achieving fine-grained independent control over multiple subjects remains challenging due to difficulties in preserving subject fidelity and preventing cross-subject attribute leakage. We present FocusDPO, a framework that adaptively identifies focus regions based on dynamic semantic correspondence and supervision image complexity. During training, our method progressively adjusts these focal areas across noise timesteps, implementing a weighted strategy that rewards information-rich patches while penalizing regions with low prediction confidence. The framework dynamically adjusts focus allocation during the DPO process according to the semantic complexity of reference images and establishes robust correspondence mappings between generated and reference subjects. Extensive experiments demonstrate that our method substantially enhances the performance of existing pre-trained personalized generation models, achieving state-of-the-art results on both single-subject and multi-subject personalized image synthesis benchmarks. Our method effectively mitigates attribute leakage while preserving superior subject fidelity across diverse generation scenarios, advancing the frontier of controllable multi-subject image synthesis.
- Abstract(参考訳): 多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
しかし,複数被写体に対する微粒化独立制御の実現は,被写体忠実性の維持と異物属性の漏洩防止が困難であるため,依然として困難である。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
トレーニング中は、これらの焦点領域をノイズタイムステップを越えて段階的に調整し、予測信頼性の低い領域をペナル化しながら、情報豊富なパッチに報いる重み付け戦略を実装した。
このフレームワークは、参照画像の意味的複雑さに応じてDPOプロセス中の焦点割り当てを動的に調整し、生成された対象と参照対象との堅牢な対応マッピングを確立する。
大規模な実験により,本手法は既存の個別画像合成モデルの性能を大幅に向上させ,単目的画像と多目的画像合成ベンチマークの両方で最先端の結果が得られることを示した。
本手法は,多様な生成シナリオにまたがって優れた主観的忠実性を保ちつつ,属性の漏洩を効果的に軽減し,制御可能なマルチオブジェクト画像合成のフロンティアを前進させる。
関連論文リスト
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling [14.621456944266802]
推論中に生成した画像と人間の嗜好を調整するためのトレーニング不要アライメント手法DyMOを提案する。
テキスト認識された人間の嗜好スコアとは別に、拡散の初期における意味的アライメントを強化する意味的アライメントの目的を導入する。
種々の事前学習拡散モデルとメトリクスを用いた実験は,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-12-01T10:32:47Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。