Fugu-MT 論文翻訳(概要): LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition

論文の概要: LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition

arxiv url: http://arxiv.org/abs/2402.09989v2
Date: Sat, 17 Feb 2024 19:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 00:27:07.755890
Title: LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition
Title（参考訳）: 橋としてのllms:接地されたマルチモーダル名前付きエンティティ認識の再構成
Authors: Jinyuan Li, Han Li, Di Sun, Jiahao Wang, Wenkun Zhang, Zan Wang, Gang Pan
Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
参考スコア（独自算出の注目度）: 29.547595633666987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Grounded Multimodal Named Entity Recognition (GMNER) is a nascent multimodal task that aims to identify named entities, entity types and their corresponding visual regions. GMNER task exhibits two challenging properties: 1) The weak correlation between image-text pairs in social media results in a significant portion of named entities being ungroundable. 2) There exists a distinction between coarse-grained referring expressions commonly used in similar tasks (e.g., phrase localization, referring expression comprehension) and fine-grained named entities. In this paper, we propose RiVEG, a unified framework that reformulates GMNER into a joint MNER-VE-VG task by leveraging large language models (LLMs) as a connecting bridge. This reformulation brings two benefits: 1) It maintains the optimal MNER performance and eliminates the need for employing object detection methods to pre-extract regional features, thereby naturally addressing two major limitations of existing GMNER methods. 2) The introduction of entity expansion expression and Visual Entailment (VE) Module unifies Visual Grounding (VG) and Entity Grounding (EG). It enables RiVEG to effortlessly inherit the Visual Entailment and Visual Grounding capabilities of any current or prospective multimodal pretraining models. Extensive experiments demonstrate that RiVEG outperforms state-of-the-art methods on the existing GMNER dataset and achieves absolute leads of 10.65%, 6.21%, and 8.83% in all three subtasks.
Abstract（参考訳）: Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプおよび対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。 GMNERタスクは2つの難しい特性を示す。 1) ソーシャルメディアにおける画像とテキストのペア間の弱い相関関係は, 名前付きエンティティのかなりの部分が接地不能となる。 2) 類似したタスクで一般的に用いられる粗粒度参照表現(句のローカライズや表現理解など)と細粒度参照表現との区別が存在する。本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統合フレームワークであるRiVEGを提案する。この改革は2つの利点をもたらす。 1) MNERの最適性能を維持し, 地域特徴の事前抽出にオブジェクト検出手法を用いる必要をなくし, 既存のGMNER手法の2つの大きな限界に自然に対処する。 2) エンティティ拡張表現とビジュアルエンタテインメント(VE)モジュールの導入により,ビジュアルグラウンド(VG)とエンティティグラウンド(EG)が統合される。これによってRiVEGは,現在のあるいは将来的なマルチモーダル事前トレーニングモデルのVisual EntailmentとVisual Grounding機能を,懸命に継承することができる。大規模な実験により、RiVEGは既存のGMNERデータセットの最先端の手法より優れており、全3つのサブタスクで10.65%、6.21%、および8.83%の絶対的なリードを達成している。

関連論文リスト

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition [9.506482334842293]
Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T05:42:43Z)
Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation [46.9782192992495]
Grounded Multimodal Named Entity Recognition (GMNER) タスクは、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的としている。我々は,大規模な言語モデルを活用することで,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文参考訳（メタデータ） (2024-06-11T13:52:29Z)
A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T03:15:50Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文参考訳（メタデータ） (2023-06-19T15:31:34Z)
DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。 MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文参考訳（メタデータ） (2023-05-05T16:59:26Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
MNER-QG: An End-to-End MRC framework for Multimodal Named Entity Recognition with Query Grounding [21.49274082010887]
MNER(Multimodal Name entity recognition)は、情報抽出における重要なステップである。本稿では,MNER-QG という新しいエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-27T06:10:03Z)
Learning Granularity-Unified Representations for Text-to-Image Person Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-16T01:26:10Z)
Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。 3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文参考訳（メタデータ） (2022-05-07T02:10:55Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。