論文の概要: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- arxiv url: http://arxiv.org/abs/2212.14454v3
- Date: Thu, 20 Apr 2023 09:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 16:59:59.638950
- Title: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- Title(参考訳): MEAformer: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランス
- Authors: Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng
Huang, Yichi Zhang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen
- Abstract要約: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを提案する。
我々のモデルは、教師なし、教師なし、反復的、低リソースを含む複数のトレーニングシナリオでSOTAのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 40.745848169903105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important variant of entity alignment (EA), multi-modal entity
alignment (MMEA) aims to discover identical entities across different knowledge
graphs (KGs) with relevant images attached. We noticed that current MMEA
algorithms all globally adopt the KG-level modality fusion strategies for
multi-modal entity representation but ignore the variation in modality
preferences for individual entities, hurting the robustness to potential noise
involved in modalities (e.g., blurry images and relations). In this paper, we
present MEAformer, a multi-modal entity alignment transformer approach for meta
modality hybrid, which dynamically predicts the mutual correlation coefficients
among modalities for entity-level feature aggregation. A modal-aware hard
entity replay strategy is further proposed for addressing vague entity details.
Experimental results show that our model not only achieves SOTA performance on
multiple training scenarios including supervised, unsupervised, iterative, and
low resource, but also has a comparable number of parameters, optimistic speed,
and good interpretability. Our code and data are available at
https://github.com/zjukg/MEAformer.
- Abstract(参考訳): エンティティアライメント(EA)の重要な変種として、マルチモーダルエンティティアライメント(MMEA)は、関連する画像を付加した異なる知識グラフ(KG)にまたがる同一のエンティティを発見することを目的としている。
我々は,現行のMMEAアルゴリズムが多モード実体表現にKGレベルのモダリティ融合戦略をグローバルに採用しているが,個々の実体に対するモダリティ嗜好の変動を無視し,モダリティにかかわる潜在的なノイズ(例えば,ぼやけた画像や関係)に対するロバスト性を損なうことに気付いた。
本稿では,メタモダリティハイブリッドのためのマルチモーダルアライメント・アライメント・トランスフォーマーであるMEAformerを提案する。
曖昧なエンティティの詳細に対処するために、モダルアウェアなハードエンティティ再生戦略がさらに提案されている。
実験結果から,本モデルは教師付き,教師なし,反復的,低リソースを含む複数の訓練シナリオにおいてSOTA性能を達成するだけでなく,パラメータ数,楽観的速度,良好な解釈性も備えていることがわかった。
私たちのコードとデータはhttps://github.com/zjukg/meaformerで入手できます。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Pseudo-Label Calibration Semi-supervised Multi-Modal Entity Alignment [7.147651976133246]
マルチモーダル・エンティティ・アライメント(MMEA)は、統合のための2つのマルチモーダル・ナレッジ・グラフ間で等価なエンティティを識別することを目的としている。
Pseudo-label Multimodal Entity Alignment (PCMEA) を半教師付き方式で導入する。
モーメントに基づくコントラスト学習とラベル付きデータとラベルなしデータの完全活用を組み合わせることで、擬似ラベルの品質を向上し、アライメントされたエンティティを近づける。
論文 参考訳(メタデータ) (2024-03-02T12:44:59Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。