論文の概要: VP-MEL: Visual Prompts Guided Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2412.06720v2
- Date: Tue, 10 Dec 2024 12:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:12.461606
- Title: VP-MEL: Visual Prompts Guided Multimodal Entity Linking
- Title(参考訳): VP-MEL: マルチモーダルエンティティリンクをガイドしたVisual Prompts
- Authors: Hongze Mi, Jinyuan Li, Xuying Zhang, Haoran Cheng, Jiahao Wang, Di Sun, Gang Pan,
- Abstract要約: MEL(Multimodal Entity Linking)は情報検索の分野で広く利用されている。
既存のMELメソッドは通常、検索に参照語を言及として利用する。
言及語が存在しない状況では、MEL法はエンティティリンクに画像テキストペアを利用するのに苦労する。
- 参考スコア(独自算出の注目度): 16.463229055333407
- License:
- Abstract: Multimodal Entity Linking (MEL) is extensively utilized in the domains of information retrieval. However, existing MEL methods typically utilize mention words as mentions for retrieval. This results in a significant dependence of MEL on mention words, thereby constraining its capacity to effectively leverage information from both images and text. In situations where mention words are absent, MEL methods struggle to leverage image-text pairs for entity linking. To solve these issues, we introduce a Visual Prompts guided Multimodal Entity Linking (VP-MEL) task. VP-MEL directly marks specific regions within the image. These markers are referred to as visual prompts in VP-MEL. Without mention words, VP-MEL aims to utilize marked image-text pairs to align visual prompts with specific entities in the knowledge bases. A new dataset for the VP-MEL task, VPWiki, is proposed in this paper. Moreover, we propose a framework named FBMEL, which enhances the significance of visual prompts and fully leverages the information in image-text pairs. Experimental results on the VPWiki dataset demonstrate that FBMEL outperforms baseline methods across multiple benchmarks for the VP-MEL task.
- Abstract(参考訳): MEL(Multimodal Entity Linking)は情報検索の分野で広く利用されている。
しかし、既存のMELメソッドは、通常、検索に参照語を言及として利用する。
これにより、MELが参照語に大きく依存するようになり、画像とテキストの両方からの情報を効果的に活用する能力が制限される。
言及語が存在しない状況では、MEL法はエンティティリンクに画像テキストペアを利用するのに苦労する。
これらの問題を解決するために、Visual Promptsガイド付きマルチモーダルエンティティリンク(VP-MEL)タスクを導入する。
VP-MELは画像内の特定の領域を直接マークする。
これらのマーカーはVP-MELの視覚的プロンプトと呼ばれる。
言うまでもなく、VP-MELは、視覚的なプロンプトを知識ベース内の特定のエンティティと整合させるために、マーク付き画像テキストペアを活用することを目的としている。
本稿では,VP-MELタスクのための新しいデータセットVPWikiを提案する。
さらに、視覚的プロンプトの重要性を高め、画像とテキストのペアにおける情報を完全に活用するFBMELというフレームワークを提案する。
VPWikiデータセットの実験結果は、FBMELがVP-MELタスクの複数のベンチマークでベースラインメソッドより優れていることを示している。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models [15.907584884933414]
会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。
本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。
実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
論文 参考訳(メタデータ) (2025-01-20T13:43:45Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。
我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。
次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-04-07T16:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。