論文の概要: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- arxiv url: http://arxiv.org/abs/2212.14454v1
- Date: Thu, 29 Dec 2022 20:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:20:53.525600
- Title: MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid
- Title(参考訳): MEAformer: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランス
- Authors: Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng
Huang, Yuxia Geng, Jeff Z. Pan, Wenting Song, Huajun Chen
- Abstract要約: メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを提案する。
我々のモデルは、教師なし、教師なし、反復的、低リソースを含む複数のトレーニングシナリオでSOTAのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 37.42463699024903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important variant of entity alignment (EA), multi-modal entity
alignment (MMEA) aims to discover identical entities across different knowledge
graphs (KGs) with multiple modalities like images. However, current MMEA
algorithms all adopt KG-level modality fusion strategies but ignore modality
differences among individual entities, hurting the robustness to potential
noise involved in modalities (e.g., unidentifiable images and relations). In
this paper we present MEAformer, a multi-modal entity alignment transformer
approach for meta modality hybrid, to dynamically predict the mutual
correlation coefficients among modalities for instance-level feature fusion. A
modal-aware hard entity replay strategy is also proposed for addressing vague
entity details. Extensive experimental results show that our model not only
achieves SOTA performance on multiple training scenarios including supervised,
unsupervised, iterative, and low resource, but also has limited parameters,
optimistic speed, and good interpretability. Our code will be available soon.
- Abstract(参考訳): エンティティアライメント(EA)の重要な変種として、マルチモーダルエンティティアライメント(MMEA)は、画像のような複数のモダリティを持つ異なる知識グラフ(KG)にまたがる同一のエンティティを発見することを目的としている。
しかしながら、現在のMMEAアルゴリズムはいずれもKGレベルのモダリティ融合戦略を採用しているが、個々の実体間のモダリティ差を無視し、モダリティに関連する潜在的なノイズ(例えば、未知の画像や関係)に対するロバスト性を損なう。
本稿では,メタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスフォーマーであるmeaformerを提案し,インスタンスレベルの特徴融合におけるモダリティ間の相互相関係数を動的に予測する。
曖昧なエンティティの詳細に対処するために、モーダルアウェアなハードエンティティ再生戦略も提案されている。
実験結果から, 教師付き, 教師なし, 反復的, 低リソースを含む複数の訓練シナリオにおいて, モデルがSOTA性能を達成するだけでなく, パラメータ, 楽観的速度, 良好な解釈性を有することがわかった。
私たちのコードはもうすぐ利用可能になるでしょう。
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Pseudo-Label Calibration Semi-supervised Multi-Modal Entity Alignment [7.147651976133246]
マルチモーダル・エンティティ・アライメント(MMEA)は、統合のための2つのマルチモーダル・ナレッジ・グラフ間で等価なエンティティを識別することを目的としている。
Pseudo-label Multimodal Entity Alignment (PCMEA) を半教師付き方式で導入する。
モーメントに基づくコントラスト学習とラベル付きデータとラベルなしデータの完全活用を組み合わせることで、擬似ラベルの品質を向上し、アライメントされたエンティティを近づける。
論文 参考訳(メタデータ) (2024-03-02T12:44:59Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。