論文の概要: Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional
- arxiv url: http://arxiv.org/abs/2509.23499v1
- Date: Sat, 27 Sep 2025 21:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.262774
- Title: Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional
- Title(参考訳): マルチモーダルデータスペクトル:マルチモーダルデータセットは多次元である
- Authors: Divyam Madaan, Varshan Muhunthan, Kyunghyun Cho, Sumit Chopra,
- Abstract要約: マルチモーダル大言語モデル(MLLM)を用いた23の視覚的質問応答ベンチマークにおける依存性の定量化のための大規模実験的検討を行った。
その結果,視力,質問 (テキスト) およびそれらの相互作用への依存度は,ベンチマーク内とベンチマーク内の両方で大きく異なることがわかった。
テキストのみのバイアスを軽減するための多くのベンチマークが、必然的に画像のみの依存関係を増幅していることがわかった。
この特徴はモデルのサイズにまたがって持続し、より大規模なモデルはこれらのモダリティ内依存を使い、マルチモーダル推論の欠如を隠蔽する高い性能を達成する。
- 参考スコア(独自算出の注目度): 40.11148315577635
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding the interplay between intra-modality dependencies (the contribution of an individual modality to a target task) and inter-modality dependencies (the relationships between modalities and the target task) is fundamental to advancing multi-modal learning. However, the nature of and interaction between these dependencies within current benchmark evaluations remains poorly characterized. In this work, we present a large-scale empirical study to quantify these dependencies across 23 visual question-answering benchmarks using multi-modal large language models (MLLMs) covering domains such as general and expert knowledge reasoning, optical character recognition, and document understanding. Our findings show that the reliance on vision, question (text), and their interaction varies significantly, both across and within benchmarks. We discover that numerous benchmarks intended to mitigate text-only biases have inadvertently amplified image-only dependencies. This characterization persists across model sizes, as larger models often use these intra-modality dependencies to achieve high performance that mask an underlying lack of multi-modal reasoning. We provide a quantitative characterization of multi-modal datasets, enabling a principled approach to multi-modal benchmark design and evaluation.
- Abstract(参考訳): モダリティ内依存関係(目的タスクへの個別のモダリティの寄与)とモダリティ間依存関係(モダリティと対象タスクの関係)の相互作用を理解することは、マルチモーダル学習の進展に不可欠である。
しかしながら、現在のベンチマーク評価におけるこれらの依存関係の性質と相互作用は、いまだに不十分である。
本研究では,23の視覚的質問応答ベンチマークにおいて,一般知識推論,光学的文字認識,文書理解などの領域をカバーする多モーダル大言語モデル(MLLM)を用いて,これらの依存関係を定量化するための大規模実証研究を提案する。
その結果,視力,質問 (テキスト) およびそれらの相互作用への依存度は,ベンチマーク内とベンチマーク内の両方で大きく異なることがわかった。
テキストのみのバイアスを軽減するための多くのベンチマークが、必然的に画像のみの依存関係を増幅していることがわかった。
この特徴はモデルのサイズにまたがって持続し、より大規模なモデルはこれらのモダリティ内依存を使い、マルチモーダル推論の欠如を隠蔽する高い性能を達成する。
マルチモーダルなデータセットを定量的に評価し、マルチモーダルなベンチマーク設計と評価の原則的アプローチを可能にする。
関連論文リスト
- The Multimodal Paradox: How Added and Missing Modalities Shape Bias and Performance in Multimodal AI [0.0]
マルチモーダル学習は、高い意思決定において、単調な学習よりも優れていることが証明されている。
パフォーマンス向上は、マルチモーダルシステムを評価するためのゴールドスタンダードのままだが、バイアスやロバスト性に関する懸念はしばしば見過ごされている。
論文 参考訳(メタデータ) (2025-05-05T20:42:44Z) - Jointly Modeling Inter- & Intra-Modality Dependencies for Multi-modal Learning [42.16496299814368]
我々は、モーダリティ間の依存にのみ依存する従来のアプローチは、一般的に最適ではないかもしれないと論じる。
モーダリティ間の依存を捕捉・統合する言語間・モダリティ間モデリング(I2M2)フレームワークを提案する。
現実の医療と最先端のモデルを用いたビジョン・アンド・ザ・アーティカルなデータセットを用いて、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-27T19:22:41Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。