論文の概要: Guiding What Not to Generate: Automated Negative Prompting for Text-Image Alignment
- arxiv url: http://arxiv.org/abs/2512.07702v2
- Date: Thu, 11 Dec 2025 06:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.192929
- Title: Guiding What Not to Generate: Automated Negative Prompting for Text-Image Alignment
- Title(参考訳): 生成すべきでないことのガイド:テキスト画像アライメントのための否定的自動プロンプト
- Authors: Sangha Park, Eunji Kim, Yeongtak Oh, Jooyoung Choi, Sungroh Yoon,
- Abstract要約: 画像補正のための負のプロンプトは、意図しないコンテンツを抑圧する負のプロンプトを特定し、適用する。
NPCは拡散モデルにおいて、より強力なテキストイメージアライメントへの原則付き完全に自動化された経路を提供する。
- 参考スコア(独自算出の注目度): 48.52952246580342
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite substantial progress in text-to-image generation, achieving precise text-image alignment remains challenging, particularly for prompts with rich compositional structure or imaginative elements. To address this, we introduce Negative Prompting for Image Correction (NPC), an automated pipeline that improves alignment by identifying and applying negative prompts that suppress unintended content. We begin by analyzing cross-attention patterns to explain why both targeted negatives-those directly tied to the prompt's alignment error-and untargeted negatives-tokens unrelated to the prompt but present in the generated image-can enhance alignment. To discover useful negatives, NPC generates candidate prompts using a verifier-captioner-proposer framework and ranks them with a salient text-space score, enabling effective selection without requiring additional image synthesis. On GenEval++ and Imagine-Bench, NPC outperforms strong baselines, achieving 0.571 vs. 0.371 on GenEval++ and the best overall performance on Imagine-Bench. By guiding what not to generate, NPC provides a principled, fully automated route to stronger text-image alignment in diffusion models. Code is released at https://github.com/wiarae/NPC.
- Abstract(参考訳): テキスト・ツー・イメージ生成の大幅な進歩にもかかわらず、特にリッチな構成構造や想像上の要素を持つプロンプトにおいて、正確なテキスト・イメージアライメントを達成することは依然として困難である。
これを解決するために、意図しないコンテンツを抑圧する負のプロンプトを識別・適用することでアライメントを改善する自動パイプライン、NPC(Negative Prompting for Image Correction)を導入する。
まず,2つのターゲット負がプロンプトのアライメントエラーに直接結びついている理由と,そのプロンプトとは無関係だが生成した画像カンエンハンスメントのアライメントに存在していることを説明するために,クロスアテンションパターンを解析することから始める。
有用な負の発見のために、NPCは検証器・キャピタ・プロポーサフレームワークを用いて候補プロンプトを生成し、それらを有能なテキスト空間スコアにランク付けし、追加の画像合成を必要とせずに効果的な選択を可能にする。
GenEval++とImagine-Benchでは、NPCは強いベースラインを上回り、GenEval++で0.571対0.371を達成し、Imagine-Benchの全体的なパフォーマンスは最高である。
生成しないものを導くことで、NPCは拡散モデルにおいてより強力なテキストイメージアライメントへの原則付き完全に自動化されたルートを提供する。
コードはhttps://github.com/wiarae/NPCで公開されている。
関連論文リスト
- AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs [27.133240420463807]
AlignBenchは画像テキストアライメントの新しい指標を提供するベンチマークである。
多様な画像・テキスト・画像モデルとテキスト・ツー・イメージモデルによって生成された詳細な画像・キャプチャ・ペアを評価する。
各文は正当性のために注釈付けされ、VLMをアライメント評価器として直接評価することができる。
論文 参考訳(メタデータ) (2025-11-25T17:19:47Z) - Conceptrol: Concept Control of Zero-shot Personalized Image Generation [36.39574513193442]
Conceptrolは、計算オーバーヘッドを追加することなくゼロショットアダプタを強化するフレームワークである。
バニラIPアダプタよりも、パーソナライズベンチマークが最大89%改善されている。
論文 参考訳(メタデータ) (2025-03-09T11:54:08Z) - Negative Token Merging: Image-based Adversarial Feature Guidance [114.65069052244088]
負のトークンマージ(NegToMe)を導入し,画像による逆方向誘導を行う。
NegToMeは、逆拡散過程において、参照と生成された画像の間の視覚的特徴を選択的に分割する。
出力の多様性を大幅に向上させ、著作権のあるコンテンツとの視覚的類似性を34.57%削減する。
論文 参考訳(メタデータ) (2024-12-02T10:06:57Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、トーケン毎のプロンプト重量を適応的に調整することに基づく、単純で効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation [1.4138057640459576]
我々は、画像生成の高速化に向けて、負のプロンプト生成を最適化する新しい方法であるNegOptを提案する。
その結果,他の手法と比較して,インセプションスコアの25%が大幅に増加した。
論文 参考訳(メタデータ) (2024-03-12T12:44:34Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [27.32589928097192]
ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初の普遍的プロンプトを提案する。
提案手法は,不適切な画像を生成する際の様々なT2Iモデルの可能性を効果的に低減することができる。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。