論文の概要: Instruction-augmented Multimodal Alignment for Image-Text and Element Matching
- arxiv url: http://arxiv.org/abs/2504.12018v1
- Date: Wed, 16 Apr 2025 12:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:30.787658
- Title: Instruction-augmented Multimodal Alignment for Image-Text and Element Matching
- Title(参考訳): 画像テキストと要素マッチングのための命令強化マルチモーダルアライメント
- Authors: Xinli Yue, JianHui Sun, Junda Lu, Liangchao Yao, Fan Xia, Tianyi Wang, Fengyun Rao, Jing Lyu, Yuetang Deng,
- Abstract要約: 本稿では、画像テキストと要素マッチング(iMatch)のためのインストラクション強化マルチモーダルアライメントと呼ばれる改善された評価手法を提案する。
iMatchは、微調整された多モーダルな言語モデルにより、画像テキストのセマンティックアライメントを評価する。
実験の結果,iMatch法は既存の手法をはるかに上回り,その有効性と実用性を確認した。
- 参考スコア(独自算出の注目度): 8.470864568439968
- License:
- Abstract: With the rapid advancement of text-to-image (T2I) generation models, assessing the semantic alignment between generated images and text descriptions has become a significant research challenge. Current methods, including those based on Visual Question Answering (VQA), still struggle with fine-grained assessments and precise quantification of image-text alignment. This paper presents an improved evaluation method named Instruction-augmented Multimodal Alignment for Image-Text and Element Matching (iMatch), which evaluates image-text semantic alignment by fine-tuning multimodal large language models. We introduce four innovative augmentation strategies: First, the QAlign strategy creates a precise probabilistic mapping to convert discrete scores from multimodal large language models into continuous matching scores. Second, a validation set augmentation strategy uses pseudo-labels from model predictions to expand training data, boosting the model's generalization performance. Third, an element augmentation strategy integrates element category labels to refine the model's understanding of image-text matching. Fourth, an image augmentation strategy employs techniques like random lighting to increase the model's robustness. Additionally, we propose prompt type augmentation and score perturbation strategies to further enhance the accuracy of element assessments. Our experimental results show that the iMatch method significantly surpasses existing methods, confirming its effectiveness and practical value. Furthermore, our iMatch won first place in the CVPR NTIRE 2025 Text to Image Generation Model Quality Assessment - Track 1 Image-Text Alignment.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルの急速な進歩により、生成された画像とテキスト記述のセマンティックアライメントを評価することが重要な研究課題となっている。
VQA(Visual Question Answering)をベースとした現在の手法は、画像テキストアライメントの詳細な評価と正確な定量化に苦慮している。
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching (iMatch) という改良された評価手法を提案する。
まず、QAlign戦略は、マルチモーダルな大言語モデルから離散的なスコアを連続的なマッチングスコアに変換するための正確な確率的マッピングを生成する。
次に、モデルの予測から擬似ラベルを用いてトレーニングデータを拡張し、モデルの一般化性能を向上する検証セット拡張戦略を提案する。
第3に、要素拡張戦略は要素カテゴリラベルを統合し、画像テキストマッチングに対するモデルの理解を洗練させる。
第4に、画像拡張戦略では、ランダム照明のような技術を使ってモデルの堅牢性を高めている。
さらに、要素評価の精度をさらに高めるために、プロンプト型拡張とスコア摂動戦略を提案する。
実験の結果,iMatch法は既存の手法をはるかに上回り,その有効性と実用性を確認した。
さらに、私たちのiMatchはCVPR NTIRE 2025 Text to Image Generation Model Quality Assessment - Track 1 Image-Text Alignmentで優勝しました。
関連論文リスト
- TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization [8.591857157392718]
本稿では,テキスト・ツー・イメージ(T2I)生成と編集における画像テキストの相違に対処する新しいフレームワークであるTextMatchを紹介する。
TextMatchは、大きな言語モデル(LLM)と視覚質問回答モデル(VQA)を使用して、プロンプトと生成された画像間のセマンティック一貫性を評価する。
論文 参考訳(メタデータ) (2024-12-24T05:38:45Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。
MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。
自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文 参考訳(メタデータ) (2022-04-15T16:29:55Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。