論文の概要: MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models
- arxiv url: http://arxiv.org/abs/2604.23321v1
- Date: Sat, 25 Apr 2026 14:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.26904
- Title: MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models
- Title(参考訳): MMEB-V3:Omni-Modality Embedding Modelの性能ギャップの測定
- Authors: Haohang Huang, Xuan Lu, Mingyi Su, Xuan Zhang, Ziyan Jiang, Ping Nie, Kai Zou, Tomas Pfister, Wenhu Chen, Wei Zhang, Xiaoyu Shen, Rui Meng,
- Abstract要約: マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。
本稿では,テキスト,画像,ビデオ,オーディオ,エージェント中心のシナリオにまたがる埋め込みを評価するベンチマークであるMMEB-V3を紹介する。
本研究は, 完全モダリティ埋め込みの系統的解析を行い, 3つの重要な知見を同定する。
- 参考スコア(独自算出の注目度): 70.34265674686516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal embedding models aim to map heterogeneous inputs, such as text, images, videos, and audio, into a shared semantic space. However, existing methods and benchmarks remain largely limited to partial modality coverage, making it difficult to systematically evaluate full-modality representation learning. In this work, we take a step toward the full-modality setting. We introduce MMEB-V3, a comprehensive benchmark that evaluates embeddings across text, image, video, audio, as well as agent-centric scenarios. To enable more fine-grained diagnosis, we further construct OmniSET (Omni-modality Semantic Equivalence Tuples), where semantically equivalent instances are represented across modalities, allowing us to disentangle semantic similarity from modality effects. Through experiments on MMEB-V3, we conduct a systematic analysis of full-modality embeddings and identify three key findings: (1) models often fail to retrieve the intended target modality; (2) cross-modal retrieval is highly asymmetric and dominated by query-modality bias; and (3) instruction-induced shifts are either insufficient or misaligned with the target modality, and therefore do not reliably improve retrieval. These results indicate that current multimodal embeddings are not yet capable of reliably enforcing modality constraints specified by instructions, and consequently fail to exhibit consistent modality-aware retrieval behavior. We hope MMEB-V3 provides a useful benchmark for understanding and diagnosing these limitations, and for guiding future research on full-modality embeddings.
- Abstract(参考訳): マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。
しかし、既存の手法やベンチマークは部分的モダリティカバレッジに限られており、完全なモダリティ表現学習を体系的に評価することは困難である。
この作業では、フルモダリティ設定に向けて一歩踏み出します。
MMEB-V3は,テキスト,画像,ビデオ,音声,エージェント中心のシナリオにまたがる埋め込みを評価する総合ベンチマークである。
よりきめ細かい診断を可能にするため,OmniSET(Omni-modality Semantic Equivalence Tuples)を構築した。
MMEB-V3を用いた実験により,本研究では,(1)モデルが目的とするモダリティの検索に失敗する,(2)クロスモーダル検索が高度に非対称であり,クエリ-モダリティバイアスに支配される,(3)命令誘起シフトが不十分であるか,あるいは目標モダリティと不一致である,という3つの重要な知見を体系的に分析し,検索を確実に改善しない,という3つの結果を得た。
これらの結果から,現在のマルチモーダル埋め込みは命令によって規定されたモダリティ制約を確実に強制することができず,従って一貫したモダリティ対応検索動作を示すことができないことが示唆された。
MMEB-V3はこれらの限界を理解し診断するための有用なベンチマークを提供し、完全なモダリティの埋め込みに関する今後の研究の指針となることを願っている。
関連論文リスト
- Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。
既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。
我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:45:02Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。