論文の概要: TIDE: Achieving Balanced Subject-Driven Image Generation via Target-Instructed Diffusion Enhancement
- arxiv url: http://arxiv.org/abs/2509.06499v1
- Date: Mon, 08 Sep 2025 10:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.050139
- Title: TIDE: Achieving Balanced Subject-Driven Image Generation via Target-Instructed Diffusion Enhancement
- Title(参考訳): TIDE: 目標指示拡散拡張によるバランスの取れた主観的画像生成の実現
- Authors: Jibai Lin, Bo Ma, Yating Yang, Rong Ma, Turghun Osman, Ahtamjan Ahmat, Rui Dong, Lei Wang, Xi Zhou,
- Abstract要約: 本稿では,TIDE(Target-Instructed Diffusion Enhancing)フレームワークについて紹介する。
TIDEの先駆者たちは、アジェクション画像、命令、ターゲット画像を用いて、対象適応ダイナミクスをモデル化する。
その結果、TIDEは命令コンプライアンスを維持しつつ、主観的な出力を生成するのに優れた性能を示した。
- 参考スコア(独自算出の注目度): 20.35429542428955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-driven image generation (SDIG) aims to manipulate specific subjects within images while adhering to textual instructions, a task crucial for advancing text-to-image diffusion models. SDIG requires reconciling the tension between maintaining subject identity and complying with dynamic edit instructions, a challenge inadequately addressed by existing methods. In this paper, we introduce the Target-Instructed Diffusion Enhancing (TIDE) framework, which resolves this tension through target supervision and preference learning without test-time fine-tuning. TIDE pioneers target-supervised triplet alignment, modelling subject adaptation dynamics using a (reference image, instruction, target images) triplet. This approach leverages the Direct Subject Diffusion (DSD) objective, training the model with paired "winning" (balanced preservation-compliance) and "losing" (distorted) targets, systematically generated and evaluated via quantitative metrics. This enables implicit reward modelling for optimal preservation-compliance balance. Experimental results on standard benchmarks demonstrate TIDE's superior performance in generating subject-faithful outputs while maintaining instruction compliance, outperforming baseline methods across multiple quantitative metrics. TIDE's versatility is further evidenced by its successful application to diverse tasks, including structural-conditioned generation, image-to-image generation, and text-image interpolation. Our code is available at https://github.com/KomJay520/TIDE.
- Abstract(参考訳): 被写体駆動画像生成(SDIG)は、テキストから画像への拡散モデルを進める上で不可欠なタスクであるテキスト命令に固執しながら、画像内の特定の被写体を操作することを目的としている。
SDIGは、被写体アイデンティティの維持と動的編集命令の遵守の緊張を和らげる必要があり、これは既存の方法では不十分な課題である。
本稿では,TIDE(Target-Instructed Diffusion Enhancing)フレームワークについて紹介する。
TIDEの先駆者は、(参照画像、命令、ターゲット画像)三重項を用いて、対象適応力学をモデル化する三重項アライメントの先駆者である。
このアプローチでは、DSD(Direct Subject Diffusion)の目標を活用し、モデルにペアの"Winning"(バランスの取れた保存コンプライアンス)と"Losing"(歪んだ)ターゲットをトレーニングし、定量的メトリクスを通じてシステマティックに生成および評価する。
これにより、最適保存コンプライアンスバランスのための暗黙の報酬モデリングが可能になる。
標準ベンチマーク実験の結果、TIDEは命令コンプライアンスを維持しつつ、複数の量的指標でベースライン法を上回りながら、主観的な出力を生成するのに優れた性能を示した。
TIDEの汎用性は、構造条件付き生成、画像-画像生成、テキスト-画像補間など、様々なタスクに適用することでさらに証明されている。
私たちのコードはhttps://github.com/KomJay520/TIDE.comから入手可能です。
関連論文リスト
- FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文 参考訳(メタデータ) (2025-08-01T05:02:26Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - ReCorD: Reasoning and Correcting Diffusion for HOI Generation [26.625822483049426]
これらの課題に対処するために、Reasoning and Correcting Diffusion (ReCorD)を導入します。
我々のモデルは、生成プロセスを洗練させるために、潜在拡散モデルとビジュアル言語モデルを結合する。
我々は3つのベンチマークで包括的な実験を行い、テキスト・画像生成タスクの大幅な進歩を実証した。
論文 参考訳(メタデータ) (2024-07-25T10:06:26Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。