論文の概要: Vision-Language Models Struggle to Align Entities across Modalities
- arxiv url: http://arxiv.org/abs/2503.03854v1
- Date: Wed, 05 Mar 2025 19:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:26.467789
- Title: Vision-Language Models Struggle to Align Entities across Modalities
- Title(参考訳): 視覚・言語モデルによるモダリティ間のアライメントの変動
- Authors: Iñigo Alonso, Ander Salaberria, Gorka Azkune, Jeremy Barnes, Oier Lopez de Lacalle,
- Abstract要約: クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
- 参考スコア(独自算出の注目度): 13.100184125419695
- License:
- Abstract: Cross-modal entity linking refers to the ability to align entities and their attributes across different modalities. While cross-modal entity linking is a fundamental skill needed for real-world applications such as multimodal code generation, fake news detection, or scene understanding, it has not been thoroughly studied in the literature. In this paper, we introduce a new task and benchmark to address this gap. Our benchmark, MATE, consists of 5.5k evaluation instances featuring visual scenes aligned with their textual representations. To evaluate cross-modal entity linking performance, we design a question-answering task that involves retrieving one attribute of an object in one modality based on a unique attribute of that object in another modality. We evaluate state-of-the-art Vision-Language Models (VLMs) and humans on this task, and find that VLMs struggle significantly compared to humans, particularly as the number of objects in the scene increases. Our analysis also shows that, while chain-of-thought prompting can improve VLM performance, models remain far from achieving human-level proficiency. These findings highlight the need for further research in cross-modal entity linking and show that MATE is a strong benchmark to support that progress.
- Abstract(参考訳): クロスモーダルエンティティリンク(クロスモーダルエンティティリンク)とは、エンティティとそれらの属性を異なるモダリティでアライメントする能力を指す。
クロスモーダルなエンティティリンクは、マルチモーダルコード生成、フェイクニュース検出、シーン理解といった現実世界のアプリケーションに必要な基本的なスキルであるが、文献では十分に研究されていない。
本稿では,このギャップに対処する新しいタスクとベンチマークを提案する。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
クロスモーダルなエンティティリンク性能を評価するために,あるオブジェクトの1つの属性を1つのモードで検索するタスクを,そのオブジェクトの1つの属性を別のモードで検索するタスクとして設計する。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,特にシーン内の物体数が増加するにつれて,VLMは人間に比べて有意に困難であることが判明した。
我々の分析は、チェーン・オブ・シークレット・プロンプトはVLMの性能を向上させることができるが、モデルが人間のレベルの能力を達成するには程遠いことを示している。
これらの結果は、クロスモーダルなエンティティリンクのさらなる研究の必要性を浮き彫りにして、MATEがその進歩をサポートするための強力なベンチマークであることを示す。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models [0.0]
MET-Benchは、視覚言語モデルがモーダル性にまたがる実体状態を追跡する能力を評価するために設計されたベンチマークである。
以上の結果から,テキストベースと画像ベーストラッキングの差は顕著であり,この差は知覚よりも視覚的推論の欠如に起因していることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-15T19:39:58Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。
本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。
この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T16:02:02Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Cross-Modality Relevance for Reasoning on Language and Vision [22.41781462637622]
本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
論文 参考訳(メタデータ) (2020-05-12T20:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。