論文の概要: Beyond the Noise: Aligning Prompts with Latent Representations in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.08505v1
- Date: Tue, 09 Dec 2025 11:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.938336
- Title: Beyond the Noise: Aligning Prompts with Latent Representations in Diffusion Models
- Title(参考訳): 騒音を超えて:拡散モデルにおける潜在表現付きプロンプトのアライメント
- Authors: Vasco Ramos, Regev Cohen, Idan Szpektor, Joao Magalhaes,
- Abstract要約: 調整と幻覚は、条件付き拡散モデルにおいて一般的な問題である。
本研究では,雑音の多い潜在空間における意味的アライメントを測定するNoisyCLIPを提案する。
計算コストを50%削減し,BoN設定でのCLIPアライメント性能の98%を達成した。
- 参考スコア(独自算出の注目度): 14.226104805313161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional diffusion models rely on language-to-image alignment methods to steer the generation towards semantically accurate outputs. Despite the success of this architecture, misalignment and hallucinations remain common issues and require automatic misalignment detection tools to improve quality, for example by applying them in a Best-of-N (BoN) post-generation setting. Unfortunately, measuring the alignment after the generation is an expensive step since we need to wait for the overall generation to finish to determine prompt adherence. In contrast, this work hypothesizes that text/image misalignments can be detected early in the denoising process, enabling real-time alignment assessment without waiting for the complete generation. In particular, we propose NoisyCLIP a method that measures semantic alignment in the noisy latent space. This work is the first to explore and benchmark prompt-to-latent misalignment detection during image generation using dual encoders in the reverse diffusion process. We evaluate NoisyCLIP qualitatively and quantitatively and find it reduces computational cost by 50% while achieving 98% of CLIP alignment performance in BoN settings. This approach enables real-time alignment assessment during generation, reducing costs without sacrificing semantic fidelity.
- Abstract(参考訳): 条件拡散モデルは、意味論的に正確な出力に向けて生成を操るために言語と画像のアライメント法に依存する。
このアーキテクチャの成功にもかかわらず、誤調整と幻覚は相変わらず問題であり、例えばBest-of-N (BoN) ポストジェネレーション環境に適用することで、品質を改善するために自動誤調整検出ツールが必要である。
残念なことに、生成後のアライメントの測定はコストのかかるステップである。
対照的に、本研究は、復調過程の早い段階でテキスト/画像の誤認識を検出できることを仮定し、完全生成を待たずにリアルタイムアライメントアセスメントアセスメントを可能にする。
特に,ノイズ潜在空間における意味的アライメントを計測するNoisyCLIPを提案する。
この研究は、逆拡散過程におけるデュアルエンコーダを用いた画像生成中に、プロンプト・ツー・ラプタント・ミスアライメント検出を探索し、ベンチマークした最初のものである。
我々は,NoisyCLIPを質的かつ定量的に評価し,計算コストを50%削減し,BoN設定におけるCLIPアライメント性能の98%を達成した。
このアプローチは、生成中のリアルタイムアライメントアセスメントを可能にし、セマンティックな忠実さを犠牲にすることなくコストを削減する。
関連論文リスト
- How Noise Benefits AI-generated Image Detection [15.496270003630451]
AI生成画像のアウト・オブ・ディストリビューションの一般化は、永続的な課題である。
雑音発生器と検出ネットワークを同時学習するCLIP(PiN-CLIP)を提案する。
提案手法は,従来の手法に比べて平均精度が5.4向上し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-20T08:16:24Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Score-Based Turbo Message Passing for Plug-and-Play Compressive Image Recovery [24.60447255507278]
オフ・ザ・シェルフのイメージ・デノイザは概して、一般的なまたは手作りの先駆者に依存している。
我々は, スコアベース最小二乗誤差(MMSE)デノイザを統合した, 圧縮画像復元のためのメッセージパッシングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T04:30:58Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Compensation Sampling for Improved Convergence in Diffusion Models [12.311434647047427]
拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。
反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。
対象データの初期的不正確な再構成による復元誤差の蓄積により,復調過程が著しく制限されていることを論じる。
論文 参考訳(メタデータ) (2023-12-11T10:39:01Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。