論文の概要: EPIC: Efficient Predicate-Guided Inference-Time Control for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2605.11722v1
- Date: Tue, 12 May 2026 08:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.694785
- Title: EPIC: Efficient Predicate-Guided Inference-Time Control for Compositional Text-to-Image Generation
- Title(参考訳): EPIC: 合成テキスト・画像生成のための効率的な述語誘導推論時間制御
- Authors: Sunung Mun, Sunghyun Cho, Jungseul Ok,
- Abstract要約: EPIC(Efficient Predicate-Guided Inference-Time Control)は、T2I生成のためのトレーニング不要な推論時間改善フレームワークである。
元のプロンプトを一度オブジェクト変数と型付き述語で固定されたビジュアルプログラムに解析し、オブジェクトの存在、カウント、属性、リレーションといったチェック可能な条件をカバーする。
GenEval2では、EPICはプロンプトレベルの精度を34.16%から71.46%に改善している。
- 参考スコア(独自算出の注目度): 35.78825987562946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) generators can synthesize realistic images, but still struggle with compositional prompts involving multiple objects, counts, attributes, and relations. We introduce EPIC (Efficient Predicate-Guided Inference-Time Control), a training-free inference-time refinement framework for compositional T2I generation. EPIC casts refinement as predicate-guided search: it parses the original prompt once into a fixed visual program of object variables and typed predicates, covering checkable conditions such as object presence, counts, attributes, and relations. Each generated or edited image is verified against this program using visual evidence extracted from that image. An image is judged to satisfy the prompt only when all predicates are satisfied; otherwise, failed predicates decide the next step, routing local failures to targeted editing and global failures to resampling while the fixed visual program remains unchanged. On GenEval2, EPIC improves prompt-level accuracy from 34.16% for single-pass generation with the base generator to 71.46%. Under the same generator/editor setting and maximum image-model execution budget, EPIC outperforms the strongest prior refinement baseline by 19.23 points while reducing realized cost by 31% in image-model executions, 72% in MLLM calls, and 81% in MLLM tokens per prompt.
- Abstract(参考訳): 最近のテキスト・トゥ・イメージ(T2I)ジェネレータは、現実的な画像を合成できるが、複数のオブジェクト、カウント、属性、関係性を含む構成上のプロンプトに苦慮している。
本稿では, EPIC (Efficient Predicate-Guided Inference-Time Control) を導入する。
EPICは述語誘導探索(predicate-guided search)として洗練度をキャストし、元のプロンプトをオブジェクト変数と型付き述語からなる固定されたビジュアルプログラムに一度解析し、オブジェクトの存在、数、属性、関係性などのチェック可能な条件をカバーする。
生成または編集された各画像は、その画像から抽出された視覚的証拠を用いて、このプログラムに対して検証される。
画像は、すべての述語が満たされた場合にのみプロンプトを満たすと判断され、そうでなければ、失敗した述語は次のステップを決定し、ターゲットとする編集にローカルな失敗をルーティングし、固定されたビジュアルプログラムが変更されていない間に、グローバルな失敗を再サンプリングする。
GenEval2では、EPICはプロンプトレベルの精度を34.16%から71.46%に改善している。
同じジェネレータ/エディタ設定と最大イメージモデル実行予算の下では、EPICは最強の事前改善ベースラインを19.23ポイント上回り、画像モデル実行で31%、MLLM呼び出しで72%、即時MLLMトークンで81%削減した。
関連論文リスト
- From Scale to Speed: Adaptive Test-Time Scaling for Image Editing [42.704748740631885]
Image Chain-of-Thought (Image-CoT)は、推論時間を拡張して画像生成を改善するテストタイムスケーリングパラダイムである。
本稿では、編集効率と性能を向上させるオンデマンドテストタイムスケーリングフレームワークであるAdaptive Edit-CoT(ADE-CoT)を提案する。
論文 参考訳(メタデータ) (2026-02-24T09:13:16Z) - Iterative Refinement Improves Compositional Image Generation [47.116050084875106]
Text-to-image (T2I)モデルは、複数のオブジェクト、リレーション、属性を同時に扱う必要がある複雑なプロンプトと競合する。
本稿では,T2Iモデルを複数のステップで段階的に改良する反復的テストタイム戦略を提案する。
われわれのアプローチは単純で、外部ツールや事前は必要とせず、幅広い画像生成器や視覚言語モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2026-01-21T18:59:40Z) - TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency [81.17906057429329]
LPG-Benchは、ロングプロンプトベースのテキスト・ツー・イメージ・ジェネレーションを評価するための包括的なベンチマークである。
13の最先端モデルから2,600の画像を生成し、包括的なヒューマンランクアノテーションを実行します。
本稿では,TITと呼ばれるテキスト・画像・画像間の整合性に基づくゼロショット計測手法を提案する。
論文 参考訳(メタデータ) (2025-10-03T13:25:16Z) - Test-time Prompt Refinement for Text-to-Image Models [14.505841027491114]
我々は、TIRと呼ばれる基礎となるT2Iモデルの追加トレーニングを必要としないテスト時間プロンプトリファインメントフレームワークを導入する。
提案手法では,各生成ステップに続いて,事前訓練されたマルチモーダル大言語モデル(MLLM)が出力画像とユーザのプロンプトを解析する。
このクローズドループ戦略は、ブラックボックスT2Iモデルとのプラグアンドプレイ統合を維持しながら、複数のベンチマークデータセット間のアライメントと視覚的コヒーレンスを改善することを実証する。
論文 参考訳(メタデータ) (2025-07-22T20:30:13Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。