論文の概要: Multi-level Matching Network for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2412.10440v1
- Date: Wed, 11 Dec 2024 10:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:04.718101
- Title: Multi-level Matching Network for Multimodal Entity Linking
- Title(参考訳): マルチモーダルエンティティリンクのためのマルチレベルマッチングネットワーク
- Authors: Zhiwei Hu, Víctor Gutiérrez-Basulto, Ru Li, Jeff Z. Pan,
- Abstract要約: MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。
マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。
M3ELは、3つの異なるモジュールで構成されている: (i) マルチモーダルエンコーダでモーダル固有の表現を抽出するマルチモーダル特徴抽出モジュール、 (ii) マッチング粒度の2レベルを含むモーダル内マッチングネットワークモジュール、 (iii) 双方向戦略、テキスト・ツー・ビジュアルおよびビジュアル・トゥ・テキストマッチングを適用するクロスモーダルマッチングネットワークモジュール。
- 参考スコア(独自算出の注目度): 28.069585532270985
- License:
- Abstract: Multimodal entity linking (MEL) aims to link ambiguous mentions within multimodal contexts to corresponding entities in a multimodal knowledge base. Most existing approaches to MEL are based on representation learning or vision-and-language pre-training mechanisms for exploring the complementary effect among multiple modalities. However, these methods suffer from two limitations. On the one hand, they overlook the possibility of considering negative samples from the same modality. On the other hand, they lack mechanisms to capture bidirectional cross-modal interaction. To address these issues, we propose a Multi-level Matching network for Multimodal Entity Linking (M3EL). Specifically, M3EL is composed of three different modules: (i) a Multimodal Feature Extraction module, which extracts modality-specific representations with a multimodal encoder and introduces an intra-modal contrastive learning sub-module to obtain better discriminative embeddings based on uni-modal differences; (ii) an Intra-modal Matching Network module, which contains two levels of matching granularity: Coarse-grained Global-to-Global and Fine-grained Global-to-Local, to achieve local and global level intra-modal interaction; (iii) a Cross-modal Matching Network module, which applies bidirectional strategies, Textual-to-Visual and Visual-to-Textual matching, to implement bidirectional cross-modal interaction. Extensive experiments conducted on WikiMEL, RichpediaMEL, and WikiDiverse datasets demonstrate the outstanding performance of M3EL when compared to the state-of-the-art baselines.
- Abstract(参考訳): MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。
MELの既存のアプローチは、複数のモーダル間の相補的な効果を探索するための表現学習または視覚と言語による事前学習機構に基づいている。
しかし、これらの方法には2つの制限がある。
一方、彼らは同じモダリティから負のサンプルを考える可能性を見落としている。
一方、双方向の相互モーダル相互作用を捉えるメカニズムは欠如している。
これらの問題に対処するため,マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。
具体的には、M3ELは3つの異なるモジュールから構成される。
一 マルチモーダルエンコーダを用いてモダリティ固有の表現を抽出し、一様相違に基づくより良い識別的埋め込みを得るために、モダリティ内コントラスト学習サブモジュールを導入するマルチモーダル特徴抽出モジュール
(ii) 粗粒度と細粒度と細粒度の2段階の粒度を含むモーダル内マッチングネットワークモジュールで, 局所およびグローバルレベルのモーダル間相互作用を実現する。
3)双方向の双方向インタラクションを実現するために,双方向戦略,テキスト・ツー・ビジュアルマッチング,ビジュアル・ツー・テキストマッチングを適用したクロスモーダルマッチングネットワークモジュール。
WikiMEL、RichpediaMEL、WikiDiverseのデータセットで実施された大規模な実験は、最先端のベースラインと比較して、M3ELの優れた性能を示している。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。