Fugu-MT 論文翻訳(概要): ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models

論文の概要: ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models

arxiv url: http://arxiv.org/abs/2506.09740v1
Date: Wed, 11 Jun 2025 13:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.018637
Title: ELBO-T2IAlign: A Generic ELBO-Based Method for Calibrating Pixel-level Text-Image Alignment in Diffusion Models
Title（参考訳）: ELBO-T2IAlign:拡散モデルにおける画素レベルのテキスト画像アライメントの補正のためのジェネリックELBOベース手法
Authors: Qin Zhou, Zhiyang Zhang, Jinglong Wang, Xiaobin Li, Jing Zhang, Qian Yu, Lu Sheng, Dong Xu,
Abstract要約: ELBO(エビデンスローバウンド)に基づく拡散モデルにおける画素テキストアライメントのキャリブレーション手法を提案する。本手法はトレーニング不要で汎用的な手法であり,誤認識の原因を特定する必要がなくなる。
参考スコア（独自算出の注目度）: 46.27725105097827
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Diffusion models excel at image generation. Recent studies have shown that these models not only generate high-quality images but also encode text-image alignment information through attention maps or loss functions. This information is valuable for various downstream tasks, including segmentation, text-guided image editing, and compositional image generation. However, current methods heavily rely on the assumption of perfect text-image alignment in diffusion models, which is not the case. In this paper, we propose using zero-shot referring image segmentation as a proxy task to evaluate the pixel-level image and class-level text alignment of popular diffusion models. We conduct an in-depth analysis of pixel-text misalignment in diffusion models from the perspective of training data bias. We find that misalignment occurs in images with small sized, occluded, or rare object classes. Therefore, we propose ELBO-T2IAlign, a simple yet effective method to calibrate pixel-text alignment in diffusion models based on the evidence lower bound (ELBO) of likelihood. Our method is training-free and generic, eliminating the need to identify the specific cause of misalignment and works well across various diffusion model architectures. Extensive experiments on commonly used benchmark datasets on image segmentation and generation have verified the effectiveness of our proposed calibration approach.
Abstract（参考訳）: 拡散モデルは画像生成において優れている。近年の研究では、これらのモデルが高品質な画像を生成するだけでなく、アテンションマップやロス関数を通じてテキスト画像のアライメント情報を符号化していることが示されている。この情報は、セグメンテーション、テキスト誘導画像編集、合成画像生成など、様々な下流タスクに有用である。しかし、現在の手法は拡散モデルにおける完全テキスト像アライメントの仮定に大きく依存しており、そうではない。本稿では,ゼロショット参照画像セグメンテーションをプロキシタスクとして用いて,一般的な拡散モデルの画素レベルの画像とクラスレベルのテキストアライメントを評価する。我々は,データバイアスの訓練の観点から,拡散モデルにおける画素文の不一致の詳細な分析を行う。誤認識は、小さなサイズの、隠蔽された、または希少なオブジェクトクラスを持つ画像に発生する。そこで我々は,ELBO-T2IAlignを提案する。これは,ELBO(エビデンス・ローバウンド)に基づく拡散モデルにおける画素・テキストアライメントのキャリブレーションを簡易かつ効果的に行う手法である。本手法はトレーニング不要で汎用的であり,不適応の原因を特定する必要がなく,様々な拡散モデルアーキテクチャでうまく機能する。画像のセグメンテーションと生成によく用いられるベンチマークデータセットの大規模な実験により,提案手法の有効性が検証された。

関連論文リスト

Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文参考訳（メタデータ） (2024-10-01T17:50:17Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文参考訳（メタデータ） (2023-11-29T15:02:01Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
Data Generation using Texture Co-occurrence and Spatial Self-Similarity for Debiasing [6.976822832216875]
本稿では, 反対ラベル付き画像のテクスチャ表現を用いて, 付加画像を明示的に生成する新しいデバイアス手法を提案する。新たに生成された各画像は、反対ラベルのターゲット画像からテクスチャを転送しながら、ソース画像から類似した空間情報を含む。本モデルでは,生成画像のテクスチャがターゲットと類似しているか否かを決定するテクスチャ共起損失と,生成画像とソース画像間の空間的詳細がよく保存されているかどうかを決定する空間的自己相似損失とを統合する。
論文参考訳（メタデータ） (2021-10-15T08:04:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。