論文の概要: MAJORScore: A Novel Metric for Evaluating Multimodal Relevance via Joint Representation
- arxiv url: http://arxiv.org/abs/2509.21365v1
- Date: Mon, 22 Sep 2025 08:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.873398
- Title: MAJORScore: A Novel Metric for Evaluating Multimodal Relevance via Joint Representation
- Title(参考訳): MAJORScore: 共同表現によるマルチモーダル関連性評価のための新しい指標
- Authors: Zhicheng Du, Qingyang Shi, Jiasheng Lu, Yingshan Liang, Xinyu Zhang, Yiran Wang, Peiwu Qin,
- Abstract要約: MAJORScoreはマルチモーダルな関節表現による複数のモーダルの関連性の評価指標である。
大規模な実験により、MAJORScoreは一貫性のあるモダリティで26.03%-64.29%増加し、一貫性のない場合には13.28%-20.54%減少することが示されている。
- 参考スコア(独自算出の注目度): 11.928222640587586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The multimodal relevance metric is usually borrowed from the embedding ability of pretrained contrastive learning models for bimodal data, which is used to evaluate the correlation between cross-modal data (e.g., CLIP). However, the commonly used evaluation metrics are only suitable for the associated analysis between two modalities, which greatly limits the evaluation of multimodal similarity. Herein, we propose MAJORScore, a brand-new evaluation metric for the relevance of multiple modalities (N modalities, N>=3) via multimodal joint representation for the first time. The ability of multimodal joint representation to integrate multiple modalities into the same latent space can accurately represent different modalities at one scale, providing support for fair relevance scoring. Extensive experiments have shown that MAJORScore increases by 26.03%-64.29% for consistent modality and decreases by 13.28%-20.54% for inconsistence compared to existing methods. MAJORScore serves as a more reliable metric for evaluating similarity on large-scale multimodal datasets and multimodal model performance evaluation.
- Abstract(参考訳): マルチモーダル関連度尺度は通常、クロスモーダルデータ(例えばCLIP)間の相関を評価するために使用されるバイモーダルデータに対する事前訓練されたコントラスト学習モデルの埋め込み能力から借用される。
しかし、一般的に用いられる評価指標は、2つのモード間の関連分析にのみ適しており、これは多モード類似性の評価を著しく制限する。
本稿では,マルチモーダルな関節表現による複数モーダルの関連性(N modalities, N>=3)の新たな評価指標であるMAJORScoreを提案する。
複数のモダリティを同じ潜在空間に統合するマルチモーダルな関節表現の能力は、1つのスケールで異なるモダリティを正確に表現することができ、公正な関連性スコアリングをサポートする。
大規模な実験では、MAJORScoreは一貫性のあるモダリティで26.03%-64.29%増加し、既存の手法に比べて13.28%-20.54%減少している。
MAJORScoreは、大規模マルチモーダルデータセットとマルチモーダルモデルの性能評価において、類似性を評価するための信頼性の高い指標として機能する。
関連論文リスト
- CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis [2.3522423517057143]
相関対応マルチモーダルトランス(CorMulT)と呼ばれる2段階半教師付きモデルを提案する。
事前学習段階では、モーダリティ相関比較学習モジュールは、異なるモーダリティ間のモーダリティ相関係数を効率的に学習するように設計されている。
予測段階では、学習された相関係数にモダリティ表現を融合させて感情予測を行う。
論文 参考訳(メタデータ) (2024-07-09T17:07:29Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。