論文の概要: Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment
- arxiv url: http://arxiv.org/abs/2307.16210v2
- Date: Tue, 1 Aug 2023 05:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 11:24:48.318513
- Title: Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment
- Title(参考訳): マルチモーダルエンティティアライメントにおける不確かであいまいな視覚モダリティの再考
- Authors: Zhuo Chen, Lingbing Guo, Yin Fang, Yichi Zhang, Jiaoyan Chen, Jeff Z.
Pan, Yangning Li, Huajun Chen, Wen Zhang
- Abstract要約: 提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
- 参考スコア(独自算出の注目度): 38.574204922793626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a crucial extension of entity alignment (EA), multi-modal entity alignment
(MMEA) aims to identify identical entities across disparate knowledge graphs
(KGs) by exploiting associated visual information. However, existing MMEA
approaches primarily concentrate on the fusion paradigm of multi-modal entity
features, while neglecting the challenges presented by the pervasive phenomenon
of missing and intrinsic ambiguity of visual images. In this paper, we present
a further analysis of visual modality incompleteness, benchmarking latest MMEA
models on our proposed dataset MMEA-UMVM, where the types of alignment KGs
covering bilingual and monolingual, with standard (non-iterative) and iterative
training paradigms to evaluate the model performance. Our research indicates
that, in the face of modality incompleteness, models succumb to overfitting the
modality noise, and exhibit performance oscillations or declines at high rates
of missing modality. This proves that the inclusion of additional multi-modal
data can sometimes adversely affect EA. To address these challenges, we
introduce UMAEA , a robust multi-modal entity alignment approach designed to
tackle uncertainly missing and ambiguous visual modalities. It consistently
achieves SOTA performance across all 97 benchmark splits, significantly
surpassing existing baselines with limited parameters and time consumption,
while effectively alleviating the identified limitations of other models. Our
code and benchmark data are available at https://github.com/zjukg/UMAEA.
- Abstract(参考訳): エンティティアライメント(EA)の重要な拡張として、マルチモーダルエンティティアライメント(MMEA)は、関連する視覚情報を利用して、異なる知識グラフ(KG)間で同一のエンティティを識別することを目的としている。
しかし、既存のmmeaアプローチは主にマルチモーダルエンティティの特徴の融合パラダイムに集中しているが、視覚画像の欠如と内在的な曖昧さという広範囲にわたる現象によって生じる課題は無視されている。
本稿では,提案するデータセットmmea-umvmにおける最新のmmeaモデルのベンチマークにより,視覚モダリティの不完全性のさらなる分析を行い,モデル性能を評価するための標準(非イテレーティブ)および反復訓練パラダイムを用いて,バイリンガルとモノリンガルをカバーするアライメントkgのタイプについて述べる。
本研究は、モダリティの不完全性に直面したモデルがモダリティノイズを過大に満たし、モダリティの欠落率の高い性能振動や低下を示すことを示唆する。
これは、追加のマルチモーダルデータがeaに悪影響を及ぼす可能性があることを証明している。
これらの課題に対処するために、不確実で曖昧な視覚的モダリティに対処するために、堅牢なマルチモーダルエンティティアライメントアプローチであるUMAEAを導入する。
97のベンチマークスプリットすべてでSOTA性能を継続的に達成し、パラメータや時間消費が制限された既存のベースラインを大幅に上回り、他のモデルの特定された制限を効果的に緩和する。
コードとベンチマークデータはhttps://github.com/zjukg/UMAEA.comで公開されています。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-30T07:14:31Z) - IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。
確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。
また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文 参考訳(メタデータ) (2024-07-27T17:12:37Z) - Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。