Fugu-MT 論文翻訳(概要): Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment

論文の概要: Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment

arxiv url: http://arxiv.org/abs/2404.17590v1
Date: Fri, 19 Apr 2024 08:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-05 18:04:17.051692
Title: Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment
Title（参考訳）: マルチモーダルエンティティアライメントのためのモーダル内およびモーダル間相互作用の活用
Authors: Zhiwei Hu, Víctor Gutiérrez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan,
Abstract要約: マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
参考スコア（独自算出の注目度）: 27.28214706269035
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-modal entity alignment (MMEA) aims to identify equivalent entity pairs across different multi-modal knowledge graphs (MMKGs). Existing approaches focus on how to better encode and aggregate information from different modalities. However, it is not trivial to leverage multi-modal knowledge in entity alignment due to the modal heterogeneity. In this paper, we propose a Multi-Grained Interaction framework for Multi-Modal Entity Alignment (MIMEA), which effectively realizes multi-granular interaction within the same modality or between different modalities. MIMEA is composed of four modules: i) a Multi-modal Knowledge Embedding module, which extracts modality-specific representations with multiple individual encoders; ii) a Probability-guided Modal Fusion module, which employs a probability guided approach to integrate uni-modal representations into joint-modal embeddings, while considering the interaction between uni-modal representations; iii) an Optimal Transport Modal Alignment module, which introduces an optimal transport mechanism to encourage the interaction between uni-modal and joint-modal embeddings; iv) a Modal-adaptive Contrastive Learning module, which distinguishes the embeddings of equivalent entities from those of non-equivalent ones, for each modality. Extensive experiments conducted on two real-world datasets demonstrate the strong performance of MIMEA compared to the SoTA. Datasets and code have been submitted as supplementary materials.
Abstract（参考訳）: マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。既存のアプローチでは、さまざまなモダリティから情報をエンコードして集約する方法に重点を置いている。しかし、モーダルな不均一性のため、エンティティアライメントにおいてマルチモーダルな知識を活用することは自明ではない。本稿では,MIMEA(Multi-Grained Interaction framework for Multi-Modal Entity Alignment)を提案する。 MIMEAは4つのモジュールから構成される。一マルチモーダル知識埋め込みモジュールであって、複数の個別エンコーダでモダリティ固有の表現を抽出するもの二確率誘導型モダルフュージョンモジュールであって、一様表現の相互作用を考慮しつつ、一様表現を共同モダル埋め込みに統合するための確率誘導的手法を用いるもの三ユニモーダルとジョイントモーダルの埋め込みの相互作用を促進するための最適な輸送機構を導入する最適輸送モーダルアライメントモジュール四モダル適応コントラスト学習モジュールであって、同値でないものと等価でないものとの埋め込みを、各モダリティごとに区別するものであること。 2つの実世界のデータセットで実施された大規模な実験は、SoTAと比較してMIMEAの強い性能を示している。追加資料としてデータセットとコードが提出されている。

関連論文リスト

MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model [57.89395815934156]
Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
論文参考訳（メタデータ） (2026-02-06T05:18:33Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Multi-level Matching Network for Multimodal Entity Linking [28.069585532270985]
MEL(Multimodal entity Linking)は、マルチモーダルなコンテキスト内の曖昧な言及を、マルチモーダルな知識ベース内の対応するエンティティにリンクすることを目的としている。マルチモーダルエンティティリンク(M3EL)のためのマルチレベルマッチングネットワークを提案する。 M3ELは、3つの異なるモジュールで構成されている: (i) マルチモーダルエンコーダでモーダル固有の表現を抽出するマルチモーダル特徴抽出モジュール、 (ii) マッチング粒度の2レベルを含むモーダル内マッチングネットワークモジュール、 (iii) 双方向戦略、テキスト・ツー・ビジュアルおよびビジュアル・トゥ・テキストマッチングを適用するクロスモーダルマッチングネットワークモジュール。
論文参考訳（メタデータ） (2024-12-11T10:26:17Z)
What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。我々の理論的分析は、情報の共有、相乗的、ユニークな用語がこの定式化から自然に現れることを示している。後者では、CoMMは複雑なマルチモーダル相互作用を学び、7つのマルチモーダルベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2024-09-11T16:42:22Z)
Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models [7.134682404460003]
そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
論文参考訳（メタデータ） (2024-09-09T10:40:50Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。 4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。 MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文参考訳（メタデータ） (2023-07-27T14:09:59Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文参考訳（メタデータ） (2023-03-20T01:20:02Z)
Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文参考訳（メタデータ） (2022-09-02T08:59:57Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。