論文の概要: MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains
- arxiv url: http://arxiv.org/abs/2511.06452v1
- Date: Sun, 09 Nov 2025 16:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.956882
- Title: MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains
- Title(参考訳): MultiBENCH++: 専門ドメイン間の統合された総合的なマルチモーダルフュージョンベンチマーク
- Authors: Leyan Xue, Zongbo Han, Kecheng Xue, Xiaohong Liu, Guangyu Wang, Changqing Zhang,
- Abstract要約: 我々は,マルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークでは,15のモダリティと20の予測タスクを含む,30以上のデータセットを統合している。
また、オープンソース、統一、自動評価パイプラインも開発しました。
- 参考スコア(独自算出の注目度): 35.51165632307551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although multimodal fusion has made significant progress, its advancement is severely hindered by the lack of adequate evaluation benchmarks. Current fusion methods are typically evaluated on a small selection of public datasets, a limited scope that inadequately represents the complexity and diversity of real-world scenarios, potentially leading to biased evaluations. This issue presents a twofold challenge. On one hand, models may overfit to the biases of specific datasets, hindering their generalization to broader practical applications. On the other hand, the absence of a unified evaluation standard makes fair and objective comparisons between different fusion methods difficult. Consequently, a truly universal and high-performance fusion model has yet to emerge. To address these challenges, we have developed a large-scale, domain-adaptive benchmark for multimodal evaluation. This benchmark integrates over 30 datasets, encompassing 15 modalities and 20 predictive tasks across key application domains. To complement this, we have also developed an open-source, unified, and automated evaluation pipeline that includes standardized implementations of state-of-the-art models and diverse fusion paradigms. Leveraging this platform, we have conducted large-scale experiments, successfully establishing new performance baselines across multiple tasks. This work provides the academic community with a crucial platform for rigorous and reproducible assessment of multimodal models, aiming to propel the field of multimodal artificial intelligence to new heights.
- Abstract(参考訳): マルチモーダル核融合は大きな進歩を遂げているが、適切な評価ベンチマークが欠如しているため、その進歩は著しく妨げられている。
現在の融合法は、一般に、現実のシナリオの複雑さと多様性を不十分に表現する限られた範囲である、少数のパブリックデータセットで評価され、バイアスのある評価につながる可能性がある。
この問題は2つの課題を提起する。
一方、モデルは特定のデータセットのバイアスに過度に適合し、より広範な実用的な応用への一般化を妨げる可能性がある。
一方、統一評価基準が存在しないことは、異なる融合法間の公正かつ客観的な比較を困難にしている。
その結果、真に普遍的で高性能な核融合モデルはまだ登場していない。
これらの課題に対処するため,我々はマルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークは、主要なアプリケーションドメインにわたる15のモダリティと20の予測タスクを含む、30以上のデータセットを統合している。
これを補完するために、我々はまた、最先端モデルと多様な融合パラダイムの標準化実装を含む、オープンソースで統一的で自動化された評価パイプラインを開発しました。
このプラットフォームを活用して、大規模な実験を行い、複数のタスクにまたがる新たなパフォーマンスベースラインの確立に成功しました。
この研究は、マルチモーダル人工知能の分野を新たな高地へと発展させることを目的として、多モーダルモデルの厳密で再現可能な評価のための重要なプラットフォームを学術コミュニティに提供する。
関連論文リスト
- REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization [2.689067085628911]
本稿では,実世界のゲームアプリケーションを用いて,認知負荷検出ベンチマークを拡張したマルチモーダルデータセットを提案する。
タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生している。
xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、体系的にトレーニングされ、評価される。
論文 参考訳(メタデータ) (2025-09-01T17:36:09Z) - Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文 参考訳(メタデータ) (2025-01-30T18:59:36Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。