論文の概要: Guiding What Not to Generate: Automated Negative Prompting for Text-Image Alignment
- arxiv url: http://arxiv.org/abs/2512.07702v1
- Date: Mon, 08 Dec 2025 16:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.965804
- Title: Guiding What Not to Generate: Automated Negative Prompting for Text-Image Alignment
- Title(参考訳): 生成すべきでないことのガイド:テキスト画像アライメントのための否定的自動プロンプト
- Authors: Sangha Park, Eunji Kim, Yeongtak Oh, Jooyoung Choi, Sungroh Yoon,
- Abstract要約: 画像補正のための負のプロンプトは、意図しないコンテンツを抑圧する負のプロンプトを特定し、適用する。
NPCは拡散モデルにおいて、より強力なテキストイメージアライメントへの原則付き完全に自動化された経路を提供する。
- 参考スコア(独自算出の注目度): 48.52952246580342
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite substantial progress in text-to-image generation, achieving precise text-image alignment remains challenging, particularly for prompts with rich compositional structure or imaginative elements. To address this, we introduce Negative Prompting for Image Correction (NPC), an automated pipeline that improves alignment by identifying and applying negative prompts that suppress unintended content. We begin by analyzing cross-attention patterns to explain why both targeted negatives-those directly tied to the prompt's alignment error-and untargeted negatives-tokens unrelated to the prompt but present in the generated image-can enhance alignment. To discover useful negatives, NPC generates candidate prompts using a verifier-captioner-proposer framework and ranks them with a salient text-space score, enabling effective selection without requiring additional image synthesis. On GenEval++ and Imagine-Bench, NPC outperforms strong baselines, achieving 0.571 vs. 0.371 on GenEval++ and the best overall performance on Imagine-Bench. By guiding what not to generate, NPC provides a principled, fully automated route to stronger text-image alignment in diffusion models. Code is released at https://github.com/wiarae/NPC.
- Abstract(参考訳): テキスト・ツー・イメージ生成の大幅な進歩にもかかわらず、特にリッチな構成構造や想像上の要素を持つプロンプトにおいて、正確なテキスト・イメージアライメントを達成することは依然として困難である。
これを解決するために、意図しないコンテンツを抑圧する負のプロンプトを識別・適用することでアライメントを改善する自動パイプライン、NPC(Negative Prompting for Image Correction)を導入する。
まず,2つのターゲット負がプロンプトのアライメントエラーに直接結びついている理由と,そのプロンプトとは無関係だが生成した画像カンエンハンスメントのアライメントに存在していることを説明するために,クロスアテンションパターンを解析することから始める。
有用な負の発見のために、NPCは検証器・キャピタ・プロポーサフレームワークを用いて候補プロンプトを生成し、それらを有能なテキスト空間スコアにランク付けし、追加の画像合成を必要とせずに効果的な選択を可能にする。
GenEval++とImagine-Benchでは、NPCは強いベースラインを上回り、GenEval++で0.571対0.371を達成し、Imagine-Benchの全体的なパフォーマンスは最高である。
生成しないものを導くことで、NPCは拡散モデルにおいてより強力なテキストイメージアライメントへの原則付き完全に自動化されたルートを提供する。
コードはhttps://github.com/wiarae/NPCで公開されている。
関連論文リスト
- Conceptrol: Concept Control of Zero-shot Personalized Image Generation [36.39574513193442]
Conceptrolは、計算オーバーヘッドを追加することなくゼロショットアダプタを強化するフレームワークである。
バニラIPアダプタよりも、パーソナライズベンチマークが最大89%改善されている。
論文 参考訳(メタデータ) (2025-03-09T11:54:08Z) - Negative Token Merging: Image-based Adversarial Feature Guidance [114.65069052244088]
負のトークンマージ(NegToMe)を導入し,画像による逆方向誘導を行う。
NegToMeは、逆拡散過程において、参照と生成された画像の間の視覚的特徴を選択的に分割する。
出力の多様性を大幅に向上させ、著作権のあるコンテンツとの視覚的類似性を34.57%削減する。
論文 参考訳(メタデータ) (2024-12-02T10:06:57Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation [1.4138057640459576]
我々は、画像生成の高速化に向けて、負のプロンプト生成を最適化する新しい方法であるNegOptを提案する。
その結果,他の手法と比較して,インセプションスコアの25%が大幅に増加した。
論文 参考訳(メタデータ) (2024-03-12T12:44:34Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。