Fugu-MT 論文翻訳(概要): Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment

論文の概要: Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment

arxiv url: http://arxiv.org/abs/2307.16210v2
Date: Tue, 1 Aug 2023 05:35:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 11:24:48.318513
Title: Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment
Title（参考訳）: マルチモーダルエンティティアライメントにおける不確かであいまいな視覚モダリティの再考
Authors: Zhuo Chen, Lingbing Guo, Yin Fang, Yichi Zhang, Jiaoyan Chen, Jeff Z. Pan, Yangning Li, Huajun Chen, Wen Zhang
Abstract要約: 提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。 UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
参考スコア（独自算出の注目度）: 38.574204922793626
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a crucial extension of entity alignment (EA), multi-modal entity alignment (MMEA) aims to identify identical entities across disparate knowledge graphs (KGs) by exploiting associated visual information. However, existing MMEA approaches primarily concentrate on the fusion paradigm of multi-modal entity features, while neglecting the challenges presented by the pervasive phenomenon of missing and intrinsic ambiguity of visual images. In this paper, we present a further analysis of visual modality incompleteness, benchmarking latest MMEA models on our proposed dataset MMEA-UMVM, where the types of alignment KGs covering bilingual and monolingual, with standard (non-iterative) and iterative training paradigms to evaluate the model performance. Our research indicates that, in the face of modality incompleteness, models succumb to overfitting the modality noise, and exhibit performance oscillations or declines at high rates of missing modality. This proves that the inclusion of additional multi-modal data can sometimes adversely affect EA. To address these challenges, we introduce UMAEA , a robust multi-modal entity alignment approach designed to tackle uncertainly missing and ambiguous visual modalities. It consistently achieves SOTA performance across all 97 benchmark splits, significantly surpassing existing baselines with limited parameters and time consumption, while effectively alleviating the identified limitations of other models. Our code and benchmark data are available at https://github.com/zjukg/UMAEA.
Abstract（参考訳）: エンティティアライメント(EA)の重要な拡張として、マルチモーダルエンティティアライメント(MMEA)は、関連する視覚情報を利用して、異なる知識グラフ(KG)間で同一のエンティティを識別することを目的としている。しかし、既存のmmeaアプローチは主にマルチモーダルエンティティの特徴の融合パラダイムに集中しているが、視覚画像の欠如と内在的な曖昧さという広範囲にわたる現象によって生じる課題は無視されている。本稿では,提案するデータセットmmea-umvmにおける最新のmmeaモデルのベンチマークにより,視覚モダリティの不完全性のさらなる分析を行い,モデル性能を評価するための標準(非イテレーティブ)および反復訓練パラダイムを用いて,バイリンガルとモノリンガルをカバーするアライメントkgのタイプについて述べる。本研究は、モダリティの不完全性に直面したモデルがモダリティノイズを過大に満たし、モダリティの欠落率の高い性能振動や低下を示すことを示唆する。これは、追加のマルチモーダルデータがeaに悪影響を及ぼす可能性があることを証明している。これらの課題に対処するために、不確実で曖昧な視覚的モダリティに対処するために、堅牢なマルチモーダルエンティティアライメントアプローチであるUMAEAを導入する。 97のベンチマークスプリットすべてでSOTA性能を継続的に達成し、パラメータや時間消費が制限された既存のベースラインを大幅に上回り、他のモデルの特定された制限を効果的に緩和する。コードとベンチマークデータはhttps://github.com/zjukg/UMAEA.comで公開されています。

関連論文リスト

Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective [15.239882327601016]
本稿では,因果的視点から視覚的モダリティバイアスを研究するMMEAの非現実的脱バイアスフレームワークCDMEAを提案する。本研究の目的は,モデル予測に対する視覚的モダリティの直接的な因果効果を抑えつつ,視覚的モダリティとグラフ的モダリティを両立させることである。
論文参考訳（メタデータ） (2025-04-28T03:48:23Z)
AMAD: AutoMasked Attention for Unsupervised Multivariate Time Series Anomaly Detection [0.7371521417300614]
AMADはUMTStextbfADシナリオに対するtextbfAutotextbfMasked Attentionを統合している。 AMADはUMTSADの課題に対して堅牢で適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-04-09T07:32:59Z)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。 LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文参考訳（メタデータ） (2024-09-30T07:14:31Z)
IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文参考訳（メタデータ） (2024-07-27T17:12:37Z)
Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。 9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文参考訳（メタデータ） (2024-07-23T04:22:30Z)
A Novel Energy based Model Mechanism for Multi-modal Aspect-Based Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。 PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。 EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文参考訳（メタデータ） (2023-12-13T12:00:46Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。 MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文参考訳（メタデータ） (2022-12-29T20:49:58Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Self-attention fusion for audiovisual emotion recognition with incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文参考訳（メタデータ） (2022-01-26T18:04:29Z)
On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文参考訳（メタデータ） (2021-10-08T13:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。