論文の概要: Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2407.21033v1
- Date: Wed, 17 Jul 2024 05:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 00:36:46.313295
- Title: Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition
- Title(参考訳): グラウンドド・マルチモーダル名前付きエンティティ認識のためのマルチグラインドクエリ誘導セット予測ネットワーク
- Authors: Jielong Tang, Zhenxing Wang, Ziyang Gong, Jianxing Yu, Shuang Wang, Jian Yin,
- Abstract要約: Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。
機械読解(MRC)フレームワークやシーケンス生成モデルを用いた最近の統一手法は、マルチモーダルエンティティの関係を理解する上で困難に直面している。
そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.13502108108885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Multimodal Named Entity Recognition (GMNER) is an emerging information extraction (IE) task, aiming to simultaneously extract entity spans, types, and entity-matched bounding box groundings in images from given sentence-image pairs data. Recent unified methods employing machine reading comprehension (MRC-based) frameworks or sequence generation-based models face challenges in understanding the relationships of multimodal entities. MRC-based frameworks, utilizing human-designed queries, struggle to model intra-entity connections. Meanwhile, sequence generation-based outputs excessively rely on inter-entity dependencies due to pre-defined decoding order. To tackle these, we propose a novel unified framework named Multi-grained Query-guided Set Prediction Network (MQSPN) to learn appropriate relationships at intra-entity and inter-entity levels. Specifically, MQSPN consists of a Multi-grained Query Set (MQS) and a Multimodal Set Prediction Network (MSP). MQS combines specific type-grained and learnable entity-grained queries to adaptively strengthen intra-entity connections by explicitly aligning visual regions with textual spans. Based on solid intra-entity modeling, MSP reformulates GMNER as a set prediction, enabling the parallel prediction of multimodal entities in a non-autoregressive manner, eliminating redundant dependencies from preceding sequences, and guiding models to establish appropriate inter-entity relationships from a global matching perspective. Additionally, to boost better alignment of two-level relationships, we also incorporate a Query-guided Fusion Net (QFNet) to work as a glue network between MQS and MSP. Extensive experiments demonstrate that our approach achieves state-of-the-art performances in widely used benchmarks. Notably, our method improves 2.83% F1 in the difficult fine-grained GMNER benchmark.
- Abstract(参考訳): Grounded Multimodal Named Entity Recognition (GMNER) は、与えられた文と画像のペアのデータから、エンティティスパン、タイプ、およびエンティティマッチングされたバウンディングボックスグラウンドを同時に抽出することを目的とした、新興情報抽出(IE)タスクである。
機械読解(MRC)フレームワークやシーケンス生成モデルを用いた最近の統一手法は、マルチモーダルエンティティの関係を理解する上で困難に直面している。
人間が設計したクエリを利用するMRCベースのフレームワークは、コネクション内接続のモデル化に苦労する。
一方、シーケンス生成に基づくアウトプットは、事前に定義されたデコード順序のため、エンティティ間の依存関係を過度に依存する。
このような問題に対処するために,マルチグラデーションクエリ誘導セット予測ネットワーク (MQSPN) という新しい統合フレームワークを提案する。
具体的には、MQSPNはMulti-grained Query Set (MQS)とMulti-modal Set Prediction Network (MSP)で構成されている。
MQSは、特定のタイプ粒度と学習可能なエンティティ粒度クエリを組み合わせることで、視覚領域をテキストスパンと明示的に整合させることで、コンテンツ内接続を適応的に強化する。
ソリッド・イントラエンタリティ・モデリングに基づいて、GMNERをセット予測として再構成し、非自己回帰的な方法でマルチモーダル・エンティティの並列予測を可能にし、先行シーケンスからの冗長な依存関係を排除し、グローバル・マッチングの観点から適切なイントラエンタリティ・リレーションを確立するためのモデルを導く。
さらに、二レベル関係の整合性を高めるために、MQSとMSP間のグルーネットワークとして機能するQuery-guided Fusion Net(QFNet)も組み込んでいます。
広範に使用されているベンチマークにおいて,本手法が最先端のパフォーマンスを実現することを示す。
特に,難解なGMNERベンチマークではF1が2.83%向上した。
関連論文リスト
- DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Attribute-Consistent Knowledge Graph Representation Learning for
Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。
当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-04T06:39:36Z) - Joint Multimodal Entity-Relation Extraction Based on Edge-enhanced Graph
Alignment Network and Word-pair Relation Tagging [19.872199943795195]
本稿では,MNER と MRE を併用したマルチモーダル・エンティティ・リレーション抽出タスクを提案する。
提案手法は,オブジェクトとエンティティ間の補助的なアライメントにエッジ情報を利用することができる。
論文 参考訳(メタデータ) (2022-11-28T03:23:54Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。