論文の概要: MNER-QG: An End-to-End MRC framework for Multimodal Named Entity
Recognition with Query Grounding
- arxiv url: http://arxiv.org/abs/2211.14739v1
- Date: Sun, 27 Nov 2022 06:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:37:37.761726
- Title: MNER-QG: An End-to-End MRC framework for Multimodal Named Entity
Recognition with Query Grounding
- Title(参考訳): MNER-QG:クエリグラウンディングを用いたマルチモーダル名前付きエンティティ認識のためのエンドツーエンドMRCフレームワーク
- Authors: Meihuizi Jia, Lei Shen, Xin Shen, Lejian Liao, Meng Chen, Xiaodong He,
Zhendong Chen, Jiaqi Li
- Abstract要約: MNER(Multimodal Name entity recognition)は、情報抽出における重要なステップである。
本稿では,MNER-QG という新しいエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.49274082010887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal named entity recognition (MNER) is a critical step in information
extraction, which aims to detect entity spans and classify them to
corresponding entity types given a sentence-image pair. Existing methods either
(1) obtain named entities with coarse-grained visual clues from attention
mechanisms, or (2) first detect fine-grained visual regions with toolkits and
then recognize named entities. However, they suffer from improper alignment
between entity types and visual regions or error propagation in the two-stage
manner, which finally imports irrelevant visual information into texts. In this
paper, we propose a novel end-to-end framework named MNER-QG that can
simultaneously perform MRC-based multimodal named entity recognition and query
grounding. Specifically, with the assistance of queries, MNER-QG can provide
prior knowledge of entity types and visual regions, and further enhance
representations of both texts and images. To conduct the query grounding task,
we provide manual annotations and weak supervisions that are obtained via
training a highly flexible visual grounding model with transfer learning. We
conduct extensive experiments on two public MNER datasets, Twitter2015 and
Twitter2017. Experimental results show that MNER-QG outperforms the current
state-of-the-art models on the MNER task, and also improves the query grounding
performance.
- Abstract(参考訳): MNER(Multimodal Name entity Recognition)は、文と画像のペアが与えられたエンティティのスパンを検出し、それらに対応するエンティティタイプに分類することを目的とした、情報抽出の重要なステップである。
既存の手法では,(1)注意機構から粗粒度の視覚的手がかりを持つ名前付きエンティティを得るか,(2)ツールキットを用いてまず細粒度の視覚的領域を検出し,次に名前付きエンティティを認識する。
しかし、エンティティタイプと視覚領域間の不適切なアライメントや2段階のエラー伝達に苦しむため、最終的には無関係な視覚情報をテキストにインポートする。
本稿では、mner-qgという、mrcベースのマルチモーダル名前付きエンティティ認識とクエリの接地を同時に行うことのできる、新しいエンド・ツー・エンドフレームワークを提案する。
具体的には、クエリの助けを借りて、MNER-QGはエンティティタイプと視覚領域の事前知識を提供し、テキストと画像の両方の表現をさらに強化することができる。
問合せ接地作業を行うために,手動のアノテーションと弱い監督機能を提供し,伝達学習を用いて高度に柔軟な視覚接地モデルを訓練することで得られる。
我々は、Twitter2015とTwitter2017の2つの公開MNERデータセットに対して広範な実験を行った。
実験の結果,MNER-QGはMNERタスクにおける現在の最先端モデルよりも優れており,クエリグラウンド性能も向上していることがわかった。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation [46.9782192992495]
Grounded Multimodal Named Entity Recognition (GMNER) タスクは、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的としている。
我々は,大規模な言語モデルを活用することで,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:52:29Z) - LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition [28.136662420053568]
Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:54:33Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Multi-task Transformer with Relation-attention and Type-attention for
Named Entity Recognition [35.44123819012004]
名前付きエンティティ認識(NER)は自然言語処理において重要な研究課題である。
本稿では,エンティティ境界検出タスクを名前付きエンティティ認識タスクに組み込むマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-03-20T05:11:22Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。