論文の概要: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- arxiv url: http://arxiv.org/abs/2212.14454v4
- Date: Sun, 30 Jul 2023 14:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:55:34.491382
- Title: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- Title(参考訳): MEAformer: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランス
- Authors: Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng
Huang, Yichi Zhang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen
- Abstract要約: マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
- 参考スコア(独自算出の注目度): 40.745848169903105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal entity alignment (MMEA) aims to discover identical entities
across different knowledge graphs (KGs) whose entities are associated with
relevant images. However, current MMEA algorithms rely on KG-level modality
fusion strategies for multi-modal entity representation, which ignores the
variations of modality preferences of different entities, thus compromising
robustness against noise in modalities such as blurry images and relations.
This paper introduces MEAformer, a multi-modal entity alignment transformer
approach for meta modality hybrid, which dynamically predicts the mutual
correlation coefficients among modalities for more fine-grained entity-level
modality fusion and alignment. Experimental results demonstrate that our model
not only achieves SOTA performance in multiple training scenarios, including
supervised, unsupervised, iterative, and low-resource settings, but also has a
limited number of parameters, efficient runtime, and interpretability. Our code
is available at https://github.com/zjukg/MEAformer.
- Abstract(参考訳): マルチモーダルエンティティアライメント(mmea)は、関連する画像に関連づけられた複数の知識グラフ(kgs)にまたがる同一のエンティティを見つけることを目的としている。
しかし、現在のMMEAアルゴリズムは、異なる実体のモダリティ選好のバリエーションを無視したマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存しており、ぼやけた画像や関係のようなモダリティのノイズに対する頑健さを損なう。
本稿では、メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスフォーマーであるMEAformerを紹介し、より微細なエンティティレベルのアライメント融合とアライメントのために、モダリティ間の相互相関係数を動的に予測する。
実験の結果, 教師付き, 教師なし, 反復的, 低リソース設定を含む複数の訓練シナリオにおいて, モデルがSOTA性能を達成するだけでなく, 限られたパラメータ数, 効率的な実行時, 解釈可能性を持つことがわかった。
私たちのコードはhttps://github.com/zjukg/meaformerで利用可能です。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Pseudo-Label Calibration Semi-supervised Multi-Modal Entity Alignment [7.147651976133246]
マルチモーダル・エンティティ・アライメント(MMEA)は、統合のための2つのマルチモーダル・ナレッジ・グラフ間で等価なエンティティを識別することを目的としている。
Pseudo-label Multimodal Entity Alignment (PCMEA) を半教師付き方式で導入する。
モーメントに基づくコントラスト学習とラベル付きデータとラベルなしデータの完全活用を組み合わせることで、擬似ラベルの品質を向上し、アライメントされたエンティティを近づける。
論文 参考訳(メタデータ) (2024-03-02T12:44:59Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。