論文の概要: DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2310.05589v1
- Date: Mon, 9 Oct 2023 10:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 06:28:54.614727
- Title: DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking
- Title(参考訳): DRIN:マルチモーダルエンティティリンクのための動的関係対話ネットワーク
- Authors: Shangyu Xing, Fei Zhao, Zhen Wu, Chunhui Li, Jianbing Zhang, Xinyu Dai
- Abstract要約: 本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 31.15972952813689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Entity Linking (MEL) is a task that aims to link ambiguous
mentions within multimodal contexts to referential entities in a multimodal
knowledge base. Recent methods for MEL adopt a common framework: they first
interact and fuse the text and image to obtain representations of the mention
and entity respectively, and then compute the similarity between them to
predict the correct entity. However, these methods still suffer from two
limitations: first, as they fuse the features of text and image before
matching, they cannot fully exploit the fine-grained alignment relations
between the mention and entity. Second, their alignment is static, leading to
low performance when dealing with complex and diverse data. To address these
issues, we propose a novel framework called Dynamic Relation Interactive
Network (DRIN) for MEL tasks. DRIN explicitly models four different types of
alignment between a mention and entity and builds a dynamic Graph Convolutional
Network (GCN) to dynamically select the corresponding alignment relations for
different input samples. Experiments on two datasets show that DRIN outperforms
state-of-the-art methods by a large margin, demonstrating the effectiveness of
our approach.
- Abstract(参考訳): MEL(Multimodal Entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及をマルチモーダルな知識ベース内の参照エンティティにリンクすることを目的としたタスクである。
MELの最近の手法では、まずテキストと画像を融合して、それぞれ参照とエンティティの表現を取得し、それからそれらの類似性を計算して正しいエンティティを予測するという共通のフレームワークが採用されている。
しかし、これらの手法には2つの制限がある: まず、一致する前にテキストと画像の特徴を融合させるため、参照とエンティティ間の微妙なアライメント関係を完全に活用することはできない。
第2に、そのアライメントは静的であり、複雑で多様なデータを扱う場合のパフォーマンスが低下する。
そこで本稿では,melタスクのための動的関係対話型ネットワーク(drin)という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - From Alignment to Entailment: A Unified Textual Entailment Framework for
Entity Alignment [17.70562397382911]
既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの整列を学ぶ。
我々は両トリプルを統一されたテキストシーケンスに変換し、EAタスクを双方向のテキストエンタテインメントタスクとしてモデル化する。
提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T08:06:50Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Joint Multimodal Entity-Relation Extraction Based on Edge-enhanced Graph
Alignment Network and Word-pair Relation Tagging [19.872199943795195]
本稿では,MNER と MRE を併用したマルチモーダル・エンティティ・リレーション抽出タスクを提案する。
提案手法は,オブジェクトとエンティティ間の補助的なアライメントにエッジ情報を利用することができる。
論文 参考訳(メタデータ) (2022-11-28T03:23:54Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Dynamic Relation Discovery and Utilization in Multi-Entity Time Series
Forecasting [92.32415130188046]
多くの現実世界のシナリオでは、実体の間に決定的かつ暗黙的な関係が存在する可能性がある。
本稿では,自動グラフ学習(A2GNN)を用いたマルチグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-18T11:37:04Z) - EchoEA: Echo Information between Entities and Relations for Entity
Alignment [1.1470070927586016]
本稿では,エンティティ情報を関係に拡散し,エンティティにエコーバックする自己認識機構を活用した新しいフレームワーク Echo Entity Alignment (EchoEA) を提案する。
3つの実世界のクロスランガルデータセットの実験結果は、平均して96%で安定している。
論文 参考訳(メタデータ) (2021-07-07T07:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。