論文の概要: Multi-Grained Multimodal Interaction Network for Entity Linking
- arxiv url: http://arxiv.org/abs/2307.09721v1
- Date: Wed, 19 Jul 2023 02:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:36:56.439260
- Title: Multi-Grained Multimodal Interaction Network for Entity Linking
- Title(参考訳): エンティティリンクのためのマルチグリッドマルチモーダルインタラクションネットワーク
- Authors: Pengfei Luo, Tong Xu, Shiwei Wu, Chen Zhu, Linli Xu, Enhong Chen
- Abstract要約: マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
- 参考スコア(独自算出の注目度): 65.30260033700338
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal entity linking (MEL) task, which aims at resolving ambiguous
mentions to a multimodal knowledge graph, has attracted wide attention in
recent years. Though large efforts have been made to explore the complementary
effect among multiple modalities, however, they may fail to fully absorb the
comprehensive expression of abbreviated textual context and implicit visual
indication. Even worse, the inevitable noisy data may cause inconsistency of
different modalities during the learning process, which severely degenerates
the performance. To address the above issues, in this paper, we propose a novel
Multi-GraIned Multimodal InteraCtion Network $\textbf{(MIMIC)}$ framework for
solving the MEL task. Specifically, the unified inputs of mentions and entities
are first encoded by textual/visual encoders separately, to extract global
descriptive features and local detailed features. Then, to derive the
similarity matching score for each mention-entity pair, we device three
interaction units to comprehensively explore the intra-modal interaction and
inter-modal fusion among features of entities and mentions. In particular,
three modules, namely the Text-based Global-Local interaction Unit (TGLU),
Vision-based DuaL interaction Unit (VDLU) and Cross-Modal Fusion-based
interaction Unit (CMFU) are designed to capture and integrate the fine-grained
representation lying in abbreviated text and implicit visual cues. Afterwards,
we introduce a unit-consistency objective function via contrastive learning to
avoid inconsistency and model degradation. Experimental results on three public
benchmark datasets demonstrate that our solution outperforms various
state-of-the-art baselines, and ablation studies verify the effectiveness of
designed modules.
- Abstract(参考訳): マルチモーダルな知識グラフへの曖昧な言及を解決することを目的としたマルチモーダルエンティティリンク(MEL)タスクが近年注目を集めている。
しかし、複数のモダリティ間の相補的な効果を探求するために大きな努力がなされているが、省略されたテクストコンテキストと暗黙の視覚的表示の包括的表現を完全に吸収できない可能性がある。
さらに悪いことに、必然的な騒がしいデータは、学習プロセス中に異なるモダリティの不一致を引き起こし、パフォーマンスが著しく低下する可能性がある。
本稿では,MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $\textbf{(MIMIC)}$ frameworkを提案する。
具体的には、言及と実体の統一入力は、まずテキスト/ビジュアルエンコーダによって別々にエンコードされ、グローバルな記述的特徴と局所的な詳細な特徴を抽出する。
そこで,各言及対の類似度マッチングスコアを導出するために,3つのインタラクションユニットを用いて,エンティティと参照の特徴間のモーダル間相互作用とモーダル間融合を包括的に探索する。
特に、tglu(text-based global-local interaction unit)、vdlu(vision-based dual interaction unit)、cmfu(cross-modal fusion-based interaction unit)の3つのモジュールは、省略されたテキストと暗黙の視覚的手がかりにあるきめ細かい表現をキャプチャして統合するように設計されている。
その後,不整合やモデル劣化を避けるために,コントラスト学習による単位整合目的関数を導入する。
3つの公開ベンチマークデータセットによる実験結果から,我々のソリューションは様々な最先端のベースラインよりも優れており,アブレーションによる検証により設計モジュールの有効性が検証された。
関連論文リスト
- Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - LoginMEA: Local-to-Global Interaction Network for Multi-modal Entity Alignment [18.365849722239865]
マルチモーダルなエンティティアライメント(MMEA)は、2つのマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
我々は、ロギンメAと呼ばれるMMEAのための新しいローカル・グローバル・インタラクション・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T01:06:45Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。