論文の概要: RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment
- arxiv url: http://arxiv.org/abs/2503.14358v1
- Date: Tue, 18 Mar 2025 15:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:10.432376
- Title: RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment
- Title(参考訳): RFMI:テキストと画像のアライメントのための整流流れの相互情報推定
- Authors: Chao Wang, Giulio Franzese, Alessandro Finamore, Pietro Michiardi,
- Abstract要約: フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。
しかし、複数のベンチマークでは、合成画像はプロンプトとの整合性に乏しいことが示されている。
RFMI(Mutual Information (MI) 推定器) を導入し,MI推定に事前学習モデル自体を用いる。
- 参考スコア(独自算出の注目度): 51.85242063075333
- License:
- Abstract: Rectified Flow (RF) models trained with a Flow matching framework have achieved state-of-the-art performance on Text-to-Image (T2I) conditional generation. Yet, multiple benchmarks show that synthetic images can still suffer from poor alignment with the prompt, i.e., images show wrong attribute binding, subject positioning, numeracy, etc. While the literature offers many methods to improve T2I alignment, they all consider only Diffusion Models, and require auxiliary datasets, scoring models, and linguistic analysis of the prompt. In this paper we aim to address these gaps. First, we introduce RFMI, a novel Mutual Information (MI) estimator for RF models that uses the pre-trained model itself for the MI estimation. Then, we investigate a self-supervised fine-tuning approach for T2I alignment based on RFMI that does not require auxiliary information other than the pre-trained model itself. Specifically, a fine-tuning set is constructed by selecting synthetic images generated from the pre-trained RF model and having high point-wise MI between images and prompts. Our experiments on MI estimation benchmarks demonstrate the validity of RFMI, and empirical fine-tuning on SD3.5-Medium confirms the effectiveness of RFMI for improving T2I alignment while maintaining image quality.
- Abstract(参考訳): フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。
しかし、複数のベンチマークでは、合成画像がプロンプトとの整合性に乏しいこと、すなわち、画像が間違った属性バインディング、主観的位置付け、数値化などの問題に悩まされていることが示されている。
文献はT2Iアライメントを改善するための多くの方法を提供しているが、それらはすべて拡散モデルのみを考慮し、補助的なデータセット、スコアリングモデル、およびプロンプトの言語分析を必要とする。
本稿では,これらのギャップに対処することを目的とする。
まず、事前学習したモデル自体をMI推定に用いるRFモデルのための新しい相互情報(MI)推定器であるRFMIを紹介する。
そこで本研究では,事前学習モデル以外の補助情報を必要としないRFMIに基づくT2Iアライメントのための自己教師型微調整手法について検討する。
具体的には、予め訓練されたRFモデルから生成された合成画像を選択し、画像とプロンプトの間に高い点方向MIを有する微調整セットを構築する。
画像品質を維持しながらT2Iアライメントを改善するために,SD3.5-Mediumを用いた実験的な微調整を行い, RFMIの有効性を確認した。
関連論文リスト
- EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Paired Image-to-Image Translation Quality Assessment Using Multi-Method
Fusion [0.0]
本稿では,画像品質の信号のペア化と変換を併用して,後者の類似性と仮説的基底真理を推定する手法を提案する。
我々は,深部画像構造とテクスチャ類似性(DISTS)を予測するために,勾配型回帰器のアンサンブルを用いたマルチメソッドフュージョン(MMF)モデルを訓練した。
分析の結果,測定時間と予測精度の間にトレードオフが生じ,特徴制約を課すことが判明した。
論文 参考訳(メタデータ) (2022-05-09T11:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。