論文の概要: No Concept Left Behind: Test-Time Optimization for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.23457v1
- Date: Sat, 27 Sep 2025 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.237788
- Title: No Concept Left Behind: Test-Time Optimization for Compositional Text-to-Image Generation
- Title(参考訳): 背景にない概念: 合成テキスト・画像生成のためのテスト時間最適化
- Authors: Mohammad Hossein Sameti, Amir M. Mansourian, Arash Marioriyad, Soheil Fadaee Oshyani, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)生成における構成忠実度を高めるための,きめ細かいテスト時間最適化フレームワークを提案する。
提案手法は,入力プロンプトを意味概念に分解し,グローバルレベルと概念レベルの両方でアライメントを評価する。
DrawBench と CompBench の実験により,提案手法は概念カバレッジと人間に対する信頼度を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 14.417173544864298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in text-to-image (T2I) models, they often fail to faithfully render all elements of complex prompts, frequently omitting or misrepresenting specific objects and attributes. Test-time optimization has emerged as a promising approach to address this limitation by refining generation without the need for retraining. In this paper, we propose a fine-grained test-time optimization framework that enhances compositional faithfulness in T2I generation. Unlike most of prior approaches that rely solely on a global image/text similarity score, our method decomposes the input prompt into semantic concepts and evaluates alignment at both the global and concept levels. A fine-grained variant of CLIP is used to compute concept-level correspondence, producing detailed feedback on missing or inaccurate concepts. This feedback is fed into an iterative prompt refinement loop, enabling the large language model to propose improved prompts. Experiments on DrawBench and CompBench prompts demonstrate that our method significantly improves concept coverage and human-judged faithfulness over both standard test-time optimization and the base T2I model. Code is available at: https://github.com/AmirMansurian/NoConceptLeftBehind
- Abstract(参考訳): 近年のT2I(text-to-image)モデルの発展にもかかわらず、複雑なプロンプトのすべての要素を忠実にレンダリングできず、しばしば特定のオブジェクトや属性を省略または誤表現する。
テスト時の最適化は、再トレーニングを必要とせずに生成を精錬することで、この制限に対処するための有望なアプローチとして現れている。
本稿では,T2I生成における構成忠実度を高めるための微粒なテスト時間最適化フレームワークを提案する。
本手法は,大域的画像・テキスト類似度スコアのみに依存する従来の手法とは異なり,入力プロンプトを意味概念に分解し,大域的・概念的レベルのアライメントを評価する。
CLIPのきめ細かい変形は、概念レベルの対応を計算し、欠落した概念や不正確な概念に関する詳細なフィードバックを生成するために使われる。
このフィードバックは反復的なプロンプトリファインメントループに入力され、大きな言語モデルで改善されたプロンプトを提案できる。
DrawBench と CompBench の実験により,本手法は標準テスト時間最適化と基本 T2I モデルの両方に対して,概念カバレッジと人手による信頼度を大幅に向上することを示した。
コードは、https://github.com/AmirMansurian/NoConceptLeftBehindで入手できる。
関連論文リスト
- ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [20.935028961216325]
ConceptMix++は、ビジュアルジェネレーション機能からプロンプトのフレーズをアンタングルするフレームワークである。
最適化されたプロンプトは構成生成性能を大幅に向上することを示す。
これらの結果から,厳密なベンチマーク手法が真のモデル能力を著しく過小評価している可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-04T03:27:04Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文 参考訳(メタデータ) (2024-12-11T18:58:41Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、トーケン毎のプロンプト重量を適応的に調整することに基づく、単純で効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。