論文の概要: Image Generation from Contextually-Contradictory Prompts
- arxiv url: http://arxiv.org/abs/2506.01929v1
- Date: Mon, 02 Jun 2025 17:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.682515
- Title: Image Generation from Contextually-Contradictory Prompts
- Title(参考訳): コンテクスト・コントラクショナル・プロンプトからの画像生成
- Authors: Saar Huberman, Or Patashnik, Omer Dahary, Ron Mokady, Daniel Cohen-Or,
- Abstract要約: 本稿では,プロキシプロンプトのシーケンスを用いて認知過程をガイドする段階認識プロンプト分解フレームワークを提案する。
本手法は,文脈矛盾の存在下でのきめ細かな意味制御と正確な画像生成を可能にする。
- 参考スコア(独自算出の注目度): 50.999420029656214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models excel at generating high-quality, diverse images from natural language prompts. However, they often fail to produce semantically accurate results when the prompt contains concept combinations that contradict their learned priors. We define this failure mode as contextual contradiction, where one concept implicitly negates another due to entangled associations learned during training. To address this, we propose a stage-aware prompt decomposition framework that guides the denoising process using a sequence of proxy prompts. Each proxy prompt is constructed to match the semantic content expected to emerge at a specific stage of denoising, while ensuring contextual coherence. To construct these proxy prompts, we leverage a large language model (LLM) to analyze the target prompt, identify contradictions, and generate alternative expressions that preserve the original intent while resolving contextual conflicts. By aligning prompt information with the denoising progression, our method enables fine-grained semantic control and accurate image generation in the presence of contextual contradictions. Experiments across a variety of challenging prompts show substantial improvements in alignment to the textual prompt.
- Abstract(参考訳): テキストと画像の拡散モデルは、自然言語のプロンプトから高品質で多様な画像を生成するのに優れている。
しかし、プロンプトが学習前と矛盾する概念の組み合わせを含んでいる場合、しばしば意味論的に正確な結果が得られない。
我々は、この障害モードを、ある概念がトレーニング中に学んだ絡み合いによって暗黙的に他の概念を否定する文脈的矛盾として定義する。
そこで本稿では,プロキシプロンプトのシーケンスを用いてデノゲーションプロセスのガイドを行うステージアウェアプロンプト分解フレームワークを提案する。
各プロキシプロンプトは、コンテキストコヒーレンスを確保しつつ、特定の段階で出現することが期待されるセマンティックコンテンツにマッチするように構成される。
これらのプロキシプロンプトを構築するために、大規模言語モデル(LLM)を活用して、ターゲットのプロンプトを分析し、矛盾を識別し、文脈的矛盾を解消しながら元の意図を保存した代替表現を生成する。
提案手法は,素早い情報とデノイング進行とを一致させることで,文脈矛盾の存在下でのきめ細かなセマンティック制御と正確な画像生成を可能にする。
様々な挑戦的なプロンプトに対する実験は、テキストプロンプトのアライメントを大幅に改善したことを示している。
関連論文リスト
- EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework [127.07102988701092]
我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。
Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。
我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
論文 参考訳(メタデータ) (2025-05-16T11:25:50Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Uncertainty-Aware Image Captioning [40.984969950016236]
本稿では不確実性を考慮した画像キャプションフレームワークを提案する。
画像条件付きバッグ・オブ・ワードモデルを用いて単語の不確実性を測定する。
提案手法は,キャプション品質とデコード速度の両面において,強力なベースラインおよび関連手法より優れている。
論文 参考訳(メタデータ) (2022-11-30T06:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。