論文の概要: FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction
- arxiv url: http://arxiv.org/abs/2404.14715v1
- Date: Tue, 23 Apr 2024 03:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:20:15.755417
- Title: FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction
- Title(参考訳): FINEMATCH:アスペクトベースのきめ細かい画像とテキストミスマッチ検出と補正
- Authors: Hang Hua, Jing Shi, Kushal Kafle, Simon Jenni, Daoan Zhang, John Collomosse, Scott Cohen, Jiebo Luo,
- Abstract要約: 我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
- 参考スコア(独自算出の注目度): 66.98008357232428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large-scale pre-training has led to the development of advanced vision-language models (VLMs) with remarkable proficiency in comprehending and generating multimodal content. Despite the impressive ability to perform complex reasoning for VLMs, current models often struggle to effectively and precisely capture the compositional information on both the image and text sides. To address this, we propose FineMatch, a new aspect-based fine-grained text and image matching benchmark, focusing on text and image mismatch detection and correction. This benchmark introduces a novel task for boosting and evaluating the VLMs' compositionality for aspect-based fine-grained text and image matching. In this task, models are required to identify mismatched aspect phrases within a caption, determine the aspect's class, and propose corrections for an image-text pair that may contain between 0 and 3 mismatches. To evaluate the models' performance on this new task, we propose a new evaluation metric named ITM-IoU for which our experiments show a high correlation to human evaluation. In addition, we also provide a comprehensive experimental analysis of existing mainstream VLMs, including fully supervised learning and in-context learning settings. We have found that models trained on FineMatch demonstrate enhanced proficiency in detecting fine-grained text and image mismatches. Moreover, models (e.g., GPT-4V, Gemini Pro Vision) with strong abilities to perform multimodal in-context learning are not as skilled at fine-grained compositional image and text matching analysis. With FineMatch, we are able to build a system for text-to-image generation hallucination detection and correction.
- Abstract(参考訳): 大規模事前学習の最近の進歩は、マルチモーダルコンテンツを解釈・生成する能力に優れた高度な視覚言語モデル(VLM)の開発につながっている。
VLMの複雑な推論を行うという印象的な能力にもかかわらず、現在のモデルは画像とテキストの両方の合成情報を効果的に正確に捉えるのに苦労することが多い。
そこで本研究では,テキストと画像のミスマッチ検出と修正に焦点をあて,アスペクトベースの細粒度テキストと画像マッチングベンチマークであるFineMatchを提案する。
このベンチマークでは、アスペクトベースのきめ細かいテキストと画像マッチングのためのVLMの構成性を向上し評価するための新しいタスクを導入する。
このタスクでは、キャプション内のミスマッチしたアスペクトフレーズを識別し、アスペクトのクラスを決定し、0から3のミスマッチを含む可能性のある画像テキストペアの修正を提案する必要がある。
本研究は,本課題におけるモデルの性能を評価するために,IMM-IoUと呼ばれる新しい評価指標を提案する。
さらに,本研究では,教師付き学習とコンテキスト内学習設定を含む,既存の主流VLMの総合的な実験分析も提供する。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力が向上していることが判明した。
さらに、マルチモーダルなインコンテキスト学習を行う強力な能力を持つモデル(例えば、GPT-4V、Gemini Pro Vision)は、きめ細かい合成画像やテキストマッチング解析では熟練していない。
FineMatchにより、テキストから画像生成の幻覚検出と修正のためのシステムを構築することができる。
関連論文リスト
- Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [67.26937934504328]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。