論文の概要: ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.09740v1
- Date: Wed, 11 Jun 2025 13:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.018637
- Title: ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models
- Title(参考訳): ELBO-T2IAlign:拡散モデルにおける画素レベルのテキスト画像アライメントの補正のためのジェネリックELBOベース手法
- Authors: Qin Zhou, Zhiyang Zhang, Jinglong Wang, Xiaobin Li, Jing Zhang, Qian Yu, Lu Sheng, Dong Xu,
- Abstract要約: ELBO(エビデンスローバウンド)に基づく拡散モデルにおける画素テキストアライメントのキャリブレーション手法を提案する。
本手法はトレーニング不要で汎用的な手法であり,誤認識の原因を特定する必要がなくなる。
- 参考スコア(独自算出の注目度): 46.27725105097827
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models excel at image generation. Recent studies have shown that these models not only generate high-quality images but also encode text-image alignment information through attention maps or loss functions. This information is valuable for various downstream tasks, including segmentation, text-guided image editing, and compositional image generation. However, current methods heavily rely on the assumption of perfect text-image alignment in diffusion models, which is not the case. In this paper, we propose using zero-shot referring image segmentation as a proxy task to evaluate the pixel-level image and class-level text alignment of popular diffusion models. We conduct an in-depth analysis of pixel-text misalignment in diffusion models from the perspective of training data bias. We find that misalignment occurs in images with small sized, occluded, or rare object classes. Therefore, we propose ELBO-T2IAlign, a simple yet effective method to calibrate pixel-text alignment in diffusion models based on the evidence lower bound (ELBO) of likelihood. Our method is training-free and generic, eliminating the need to identify the specific cause of misalignment and works well across various diffusion model architectures. Extensive experiments on commonly used benchmark datasets on image segmentation and generation have verified the effectiveness of our proposed calibration approach.
- Abstract(参考訳): 拡散モデルは画像生成において優れている。
近年の研究では、これらのモデルが高品質な画像を生成するだけでなく、アテンションマップやロス関数を通じてテキスト画像のアライメント情報を符号化していることが示されている。
この情報は、セグメンテーション、テキスト誘導画像編集、合成画像生成など、様々な下流タスクに有用である。
しかし、現在の手法は拡散モデルにおける完全テキスト像アライメントの仮定に大きく依存しており、そうではない。
本稿では,ゼロショット参照画像セグメンテーションをプロキシタスクとして用いて,一般的な拡散モデルの画素レベルの画像とクラスレベルのテキストアライメントを評価する。
我々は,データバイアスの訓練の観点から,拡散モデルにおける画素文の不一致の詳細な分析を行う。
誤認識は、小さなサイズの、隠蔽された、または希少なオブジェクトクラスを持つ画像に発生する。
そこで我々は,ELBO-T2IAlignを提案する。これは,ELBO(エビデンス・ローバウンド)に基づく拡散モデルにおける画素・テキストアライメントのキャリブレーションを簡易かつ効果的に行う手法である。
本手法はトレーニング不要で汎用的であり,不適応の原因を特定する必要がなく,様々な拡散モデルアーキテクチャでうまく機能する。
画像のセグメンテーションと生成によく用いられるベンチマークデータセットの大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。