論文の概要: DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model
- arxiv url: http://arxiv.org/abs/2407.12019v1
- Date: Thu, 27 Jun 2024 15:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:20:27.762759
- Title: DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model
- Title(参考訳): DIM: 大規模言語モデルによるマルチモーダルエンティティリンクの動的統合
- Authors: Shezheng Song, Shasha Li, Jie Yu, Shan Zhao, Xiaopeng Li, Jun Ma, Xiaodong Liu, Zhuo Li, Xiaoguang Mao,
- Abstract要約: 本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。
知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
- 参考スコア(独自算出の注目度): 16.20833396645551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our study delves into Multimodal Entity Linking, aligning the mention in multimodal information with entities in knowledge base. Existing methods are still facing challenges like ambiguous entity representations and limited image information utilization. Thus, we propose dynamic entity extraction using ChatGPT, which dynamically extracts entities and enhances datasets. We also propose a method: Dynamically Integrate Multimodal information with knowledge base (DIM), employing the capability of the Large Language Model (LLM) for visual understanding. The LLM, such as BLIP-2, extracts information relevant to entities in the image, which can facilitate improved extraction of entity features and linking them with the dynamic entity representations provided by ChatGPT. The experiments demonstrate that our proposed DIM method outperforms the majority of existing methods on the three original datasets, and achieves state-of-the-art (SOTA) on the dynamically enhanced datasets (Wiki+, Rich+, Diverse+). For reproducibility, our code and collected datasets are released on \url{https://github.com/season1blue/DIM}.
- Abstract(参考訳): 本研究は,マルチモーダル・エンティティ・リンク(Multimodal Entity Linking)に着目し,知識ベースにおけるエンティティとマルチモーダル情報との言及を一致させたものである。
既存の手法はまだ曖昧な実体表現や限られた画像情報利用といった課題に直面している。
そこで本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。
知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
BLIP-2のようなLCMは、画像内のエンティティに関連する情報を抽出し、エンティティ特徴の抽出を改善し、ChatGPTが提供する動的エンティティ表現とリンクさせる。
実験の結果,提案手法は従来の3つのデータセットにおける既存手法よりも優れており,動的に拡張されたデータセット(Wiki+, Rich+, Diverse+)上でSOTA(State-of-the-art)を実現することがわかった。
再現性のために、コードと収集したデータセットは \url{https://github.com/season1blue/DIM} でリリースされます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking [16.728006492769666]
マルチモーダルなエンティティリンクのためのDWE+を提案する。
DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。
Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
論文 参考訳(メタデータ) (2024-04-07T05:56:42Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。