論文の概要: Dynamic VLM-Guided Negative Prompting for Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.26052v1
- Date: Thu, 30 Oct 2025 01:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.617604
- Title: Dynamic VLM-Guided Negative Prompting for Diffusion Models
- Title(参考訳): 拡散モデルのための動的VLM誘導負のプロンプト
- Authors: Hoyeon Chang, Seungjin Kim, Yoonseok Choi,
- Abstract要約: 視覚言語モデル(VLM)を利用した拡散モデルにおける動的負のプロンプトの新しい手法を提案する。
提案手法は,特定段階の中間画像予測を生成し,VLMに問い合わせて,文脈的に適切な負のプロンプトを生成する。
我々は,様々なベンチマークデータセットに対するアプローチを評価し,負のガイダンス強度とテキストイメージアライメントのトレードオフを実証する。
- 参考スコア(独自算出の注目度): 1.6868796119925829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for dynamic negative prompting in diffusion models that leverages Vision-Language Models (VLMs) to adaptively generate negative prompts during the denoising process. Unlike traditional Negative Prompting methods that use fixed negative prompts, our method generates intermediate image predictions at specific denoising steps and queries a VLM to produce contextually appropriate negative prompts. We evaluate our approach on various benchmark datasets and demonstrate the trade-offs between negative guidance strength and text-image alignment.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)を利用した拡散モデルにおいて,動的負のプロンプトを動的に生成する手法を提案する。
固定された負のプロンプトを使用する従来の負のプロンプト法とは異なり、本手法は特定の復調ステップで中間画像予測を生成し、VLMに対して文脈的に適切な負のプロンプトを生成するよう問い合わせる。
我々は,様々なベンチマークデータセットに対するアプローチを評価し,負のガイダンス強度とテキストイメージアライメントのトレードオフを実証する。
関連論文リスト
- Diffusion Models with Adaptive Negative Sampling Without External Resources [54.84368884047812]
ANSWERは、CFGをサポートするあらゆるモデルに適用可能な、トレーニング不要の技法であり、負のプロンプトを明示することなく、イメージ概念の負のグラウンド化を可能にする。
実験により、既存のDMにANSWERを追加することは、複数のベンチマークでベースラインよりも優れており、他の方法よりも人間の方が2倍多いことが示されている。
論文 参考訳(メタデータ) (2025-08-05T00:45:54Z) - Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [16.405694961196925]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。
既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文 参考訳(メタデータ) (2025-05-21T14:28:43Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。