論文の概要: LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2402.09989v4
- Date: Wed, 29 May 2024 16:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:21:18.025540
- Title: LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition
- Title(参考訳): LLMs as Bridges:Reformulating Grounded Multimodal Named Entity Recognition
- Authors: Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
- 参考スコア(独自算出の注目度): 28.136662420053568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) is a nascent multimodal task that aims to identify named entities, entity types and their corresponding visual regions. GMNER task exhibits two challenging properties: 1) The weak correlation between image-text pairs in social media results in a significant portion of named entities being ungroundable. 2) There exists a distinction between coarse-grained referring expressions commonly used in similar tasks (e.g., phrase localization, referring expression comprehension) and fine-grained named entities. In this paper, we propose RiVEG, a unified framework that reformulates GMNER into a joint MNER-VE-VG task by leveraging large language models (LLMs) as a connecting bridge. This reformulation brings two benefits: 1) It maintains the optimal MNER performance and eliminates the need for employing object detection methods to pre-extract regional features, thereby naturally addressing two major limitations of existing GMNER methods. 2) The introduction of entity expansion expression and Visual Entailment (VE) module unifies Visual Grounding (VG) and Entity Grounding (EG). It enables RiVEG to effortlessly inherit the Visual Entailment and Visual Grounding capabilities of any current or prospective multimodal pretraining models. Extensive experiments demonstrate that RiVEG outperforms state-of-the-art methods on the existing GMNER dataset and achieves absolute leads of 10.65%, 6.21%, and 8.83% in all three subtasks.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
GMNERタスクは2つの難しい特性を示す。
1) ソーシャルメディアにおける画像テキストペア間の相関が弱かったため, 名前付きエンティティのかなりの部分が接地不能となった。
2) 類似したタスク(例えば,句の局所化,表現理解の参照など)でよく用いられる粗粒度参照表現と細粒度名前付きエンティティとの区別がある。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統合フレームワークであるRiVEGを提案する。
この改革は2つの利点をもたらす。
1) MNERの最適性能を維持し, 地域特徴を事前に抽出するためにオブジェクト検出手法を用いることの必要性を排除し, 既存のGMNER手法の2つの大きな限界に自然に対処する。
2) エンティティ拡張表現とビジュアルエンタテインメント(VE)モジュールの導入により,ビジュアルグラウンド(VG)とエンティティグラウンド(EG)が統合される。
これによってRiVEGは,現在のあるいは将来的なマルチモーダル事前トレーニングモデルのVisual EntailmentとVisual Grounding機能を,懸命に継承することが可能になります。
大規模な実験により、RiVEGは既存のGMNERデータセットの最先端の手法より優れており、全3つのサブタスクで10.65%、6.21%、および8.83%の絶対的なリードを達成している。
関連論文リスト
- Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation [46.9782192992495]
Grounded Multimodal Named Entity Recognition (GMNER) タスクは、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的としている。
我々は,大規模な言語モデルを活用することで,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:52:29Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MNER-QG: An End-to-End MRC framework for Multimodal Named Entity
Recognition with Query Grounding [21.49274082010887]
MNER(Multimodal Name entity recognition)は、情報抽出における重要なステップである。
本稿では,MNER-QG という新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-27T06:10:03Z) - Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-16T01:26:10Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。