論文の概要: Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2407.21033v2
- Date: Wed, 21 Aug 2024 13:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:46:26.840693
- Title: Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition
- Title(参考訳): グラウンドド・マルチモーダル名前付きエンティティ認識のためのマルチグラインドクエリ誘導セット予測ネットワーク
- Authors: Jielong Tang, Zhenxing Wang, Ziyang Gong, Jianxing Yu, Xiangwei Zhu, Jian Yin,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。
近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。
そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.506482334842293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) is an emerging information extraction (IE) task, aiming to simultaneously extract entity spans, types, and corresponding visual regions of entities from given sentence-image pairs data. Recent unified methods employing machine reading comprehension or sequence generation-based frameworks show limitations in this difficult task. The former, utilizing human-designed queries, struggles to differentiate ambiguous entities, such as Jordan (Person) and off-White x Jordan (Shoes). The latter, following the one-by-one decoding order, suffers from exposure bias issues. We maintain that these works misunderstand the relationships of multimodal entities. To tackle these, we propose a novel unified framework named Multi-grained Query-guided Set Prediction Network (MQSPN) to learn appropriate relationships at intra-entity and inter-entity levels. Specifically, MQSPN consists of a Multi-grained Query Set (MQS) and a Multimodal Set Prediction Network (MSP). MQS explicitly aligns entity regions with entity spans by employing a set of learnable queries to strengthen intra-entity connections. Based on distinct intra-entity modeling, MSP reformulates GMNER as a set prediction, guiding models to establish appropriate inter-entity relationships from a global matching perspective. Additionally, we incorporate a query-guided Fusion Net (QFNet) to work as a glue network between MQS and MSP. Extensive experiments demonstrate that our approach achieves state-of-the-art performances in widely used benchmarks.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER) は、与えられた文と画像のペアのデータからエンティティのスパン、タイプ、および対応する視覚領域を同時に抽出することを目的とした、新しい情報抽出(IE)タスクである。
近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。
前者は人間設計のクエリを利用して、ヨルダン(パーソン)やオフホワイト・x・ジョーダン(シューズ)のような曖昧な実体を区別するのに苦労している。
後者は1対1のデコード命令に従って、露出バイアスの問題に悩まされる。
これらの作業は、マルチモーダルエンティティの関係を誤解している、と我々は主張する。
このような問題に対処するために,マルチグラデーションクエリ誘導セット予測ネットワーク (MQSPN) という新しい統合フレームワークを提案する。
具体的には、MQSPNはMulti-grained Query Set (MQS)とMulti-modal Set Prediction Network (MSP)で構成されている。
MQSは、エンティティ領域とエンティティスパンを明確に整合させ、学習可能なクエリのセットを使用して、エンティティ内接続を強化する。
MSPは、異なる距離内モデリングに基づいてGMNERをセット予測として再構成し、グローバルマッチングの観点から適切な距離間関係を確立するためのモデルを導く。
さらに、クエリ誘導型Fusion Net(QFNet)を導入し、MQSとMSP間のグルーネットワークとして機能します。
広汎な実験により,本手法は広く用いられているベンチマークにおいて最先端の性能を実現することが実証された。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。
確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。
また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文 参考訳(メタデータ) (2024-07-27T17:12:37Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition [28.136662420053568]
Grounded Multimodal Named Entity Recognition (GMNER) は、名前付きエンティティ、エンティティタイプ、および対応する視覚領域を識別することを目的とした、初期段階のマルチモーダルタスクである。
本稿では,大規模な言語モデル(LLM)を接続ブリッジとして活用することにより,GMNERをMNER-VE-VGタスクに再構成する統一フレームワークであるRiVEGを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:54:33Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Attribute-Consistent Knowledge Graph Representation Learning for
Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。
当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-04T06:39:36Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。