論文の概要: Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.17853v1
- Date: Wed, 23 Jul 2025 18:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.41568
- Title: Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models
- Title(参考訳): Detail++: テキストと画像の拡散モデルのためのトレーニング不要な詳細エンハンサー
- Authors: Lifeng Chen, Jiner Wang, Zihao Pan, Beier Zhu, Xiaofeng Yang, Chi Zhang,
- Abstract要約: Detail++はプログレッシブ・ディテール・インジェクション(PDI)生成のためのトレーニング不要のフレームワークである。
複雑なプロンプトを単純化されたサブプロンプト列に分解し、生成プロセスを段階的に導く。
T2I-CompBenchと新たに構築されたスタイルコンポジションベンチマークの実験は、Detail++が既存のメソッドよりも大幅に優れていることを示している。
- 参考スコア(独自算出の注目度): 6.140839748607505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) generation have led to impressive visual results. However, these models still face significant challenges when handling complex prompt, particularly those involving multiple subjects with distinct attributes. Inspired by the human drawing process, which first outlines the composition and then incrementally adds details, we propose Detail++, a training-free framework that introduces a novel Progressive Detail Injection (PDI) strategy to address this limitation. Specifically, we decompose a complex prompt into a sequence of simplified sub-prompts, guiding the generation process in stages. This staged generation leverages the inherent layout-controlling capacity of self-attention to first ensure global composition, followed by precise refinement. To achieve accurate binding between attributes and corresponding subjects, we exploit cross-attention mechanisms and further introduce a Centroid Alignment Loss at test time to reduce binding noise and enhance attribute consistency. Extensive experiments on T2I-CompBench and a newly constructed style composition benchmark demonstrate that Detail++ significantly outperforms existing methods, particularly in scenarios involving multiple objects and complex stylistic conditions.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成の最近の進歩は、目覚しい結果をもたらした。
しかし、これらのモデルは複雑なプロンプトを扱う際にも大きな課題に直面している。
この制限に対処するための新しいプログレッシブ・ディテール・インジェクション(PDI)戦略を導入するトレーニング不要のフレームワークであるDetail++を提案する。
具体的には、複雑なプロンプトを単純化されたサブプロンプトのシーケンスに分解し、生成プロセスを段階的に導く。
このステージドジェネレーションは、自己アテンションの固有のレイアウト制御能力を活用して、まずグローバルな構成を確実にし、続いて精密な改善を行う。
属性と対応する対象との正確な結合を実現するために,クロスアテンション機構を利用し,テスト時にCentroid Alignment Lossを導入し,結合ノイズを低減し,属性の整合性を高める。
T2I-CompBenchの大規模な実験と新たに構築されたスタイルコンポジションベンチマークにより、Detail++は既存のメソッド、特に複数のオブジェクトや複雑なスタイル条件を含むシナリオにおいて、大幅に性能が向上していることが示された。
関連論文リスト
- DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval [51.30915462824879]
Composed Image Retrieval (CIR) は、参照画像と修正テキストを組み合わせたクエリとして、ギャラリーからターゲットイメージを取得することを目的としている。
最近のアプローチでは、2つのモダリティからのグローバル情報のバランスに焦点が当てられ、クエリを検索のための統一的な機能にエンコードする。
DetailFusionは,グローバルおよび詳細な粒度の情報を効果的にコーディネートする,新しいデュアルブランチフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T12:15:23Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。