Fugu-MT 論文翻訳(概要): VP-MEL: Visual Prompts Guided Multimodal Entity Linking

論文の概要: VP-MEL: Visual Prompts Guided Multimodal Entity Linking

arxiv url: http://arxiv.org/abs/2412.06720v3
Date: Sun, 15 Dec 2024 16:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 13:40:10.405555
Title: VP-MEL: Visual Prompts Guided Multimodal Entity Linking
Title（参考訳）: VP-MEL: マルチモーダルエンティティリンクをガイドしたVisual Prompts
Authors: Hongze Mi, Jinyuan Li, Xuying Zhang, Haoran Cheng, Jiahao Wang, Di Sun, Gang Pan,
Abstract要約: MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。既存のMEL手法は、画像とテキストの両方からの情報を効果的に活用する能力を制限する検索手段として言及された単語に大きく依存することが多い。本稿では,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするFBMELというフレームワークを提案する。
参考スコア（独自算出の注目度）: 16.463229055333407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal entity linking (MEL), a task aimed at linking mentions within multimodal contexts to their corresponding entities in a knowledge base (KB), has attracted much attention due to its wide applications in recent years. However, existing MEL methods often rely heavily on mention words as retrieval cues, which limits their ability to effectively utilize information from both images and text. This reliance poses significant challenges in scenarios where mention words are absent, as current MEL approaches struggle to leverage image-text pairs for accurate entity linking. To solve these issues, we introduce a Visual Prompts guided Multimodal Entity Linking (VP-MEL) task. Given a text-image pair, VP-MEL aims to link a marked region (i.e., visual prompt) in an image to its corresponding entities in the knowledge base. To facilitate this task, we present a new dataset, VPWiki, specifically designed for VP-MEL. Furthermore, we propose a framework named FBMEL, which enhances visual feature extraction using visual prompts and leverages the pretrained Detective-VLM model to capture latent information. Experimental results on the VPWiki dataset demonstrate that FBMEL outperforms baseline methods across multiple benchmarks for the VP-MEL task.
Abstract（参考訳）: MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクするタスクである。しかし、既存のMEL手法は、画像とテキストの両方からの情報を効果的に活用する能力を制限する検索手段として言及された単語に大きく依存することが多い。現在のMELアプローチでは、正確なエンティティリンクのために画像とテキストのペアを活用するのに苦労している。これらの問題を解決するために、Visual Promptsガイド付きマルチモーダルエンティティリンク(VP-MEL)タスクを導入する。テキストイメージペアが与えられた場合、VP-MELは、画像中のマークされた領域(すなわち視覚的なプロンプト)を知識ベース内の対応するエンティティにリンクすることを目的としている。この作業を容易にするために、我々はVP-MEL用に特別に設計された新しいデータセットVPWikiを提示する。さらに、視覚的プロンプトを用いた視覚的特徴抽出を強化し、事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするFBMELというフレームワークを提案する。 VPWikiデータセットの実験結果は、FBMELがVP-MELタスクの複数のベンチマークでベースラインメソッドより優れていることを示している。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである 2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。 VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-15T10:04:15Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。 MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。 2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-03-01T18:20:11Z)
Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文参考訳（メタデータ） (2023-09-23T17:07:54Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。 WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文参考訳（メタデータ） (2022-11-09T13:27:50Z)
See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval [19.687373765453643]
テキストに基づく人物検索のためのImplicit Visual-Textual (IVT) フレームワークを提案する。 IVTは単一のネットワークを用いて両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
論文参考訳（メタデータ） (2022-08-18T03:04:37Z)
Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文参考訳（メタデータ） (2021-04-07T16:40:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。