論文の概要: MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains
- arxiv url: http://arxiv.org/abs/2511.06452v2
- Date: Fri, 14 Nov 2025 08:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:01.791821
- Title: MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains
- Title(参考訳): MultiBENCH++: 専門ドメイン間の統合された総合的なマルチモーダルフュージョンベンチマーク
- Authors: Leyan Xue, Changqing Zhang, Kecheng Xue, Xiaohong Liu, Guangyu Wang, Zongbo Han,
- Abstract要約: 我々は,マルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークでは,15のモダリティと20の予測タスクを含む,30以上のデータセットを統合している。
また、オープンソース、統一、自動評価パイプラインも開発しました。
- 参考スコア(独自算出の注目度): 35.511656323075506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although multimodal fusion has made significant progress, its advancement is severely hindered by the lack of adequate evaluation benchmarks. Current fusion methods are typically evaluated on a small selection of public datasets, a limited scope that inadequately represents the complexity and diversity of real-world scenarios, potentially leading to biased evaluations. This issue presents a twofold challenge. On one hand, models may overfit to the biases of specific datasets, hindering their generalization to broader practical applications. On the other hand, the absence of a unified evaluation standard makes fair and objective comparisons between different fusion methods difficult. Consequently, a truly universal and high-performance fusion model has yet to emerge. To address these challenges, we have developed a large-scale, domain-adaptive benchmark for multimodal evaluation. This benchmark integrates over 30 datasets, encompassing 15 modalities and 20 predictive tasks across key application domains. To complement this, we have also developed an open-source, unified, and automated evaluation pipeline that includes standardized implementations of state-of-the-art models and diverse fusion paradigms. Leveraging this platform, we have conducted large-scale experiments, successfully establishing new performance baselines across multiple tasks. This work provides the academic community with a crucial platform for rigorous and reproducible assessment of multimodal models, aiming to propel the field of multimodal artificial intelligence to new heights.
- Abstract(参考訳): マルチモーダル核融合は大きな進歩を遂げているが、適切な評価ベンチマークが欠如しているため、その進歩は著しく妨げられている。
現在の融合法は、一般に、現実のシナリオの複雑さと多様性を不十分に表現する限られた範囲である、少数のパブリックデータセットで評価され、バイアスのある評価につながる可能性がある。
この問題は2つの課題を提起する。
一方、モデルは特定のデータセットのバイアスに過度に適合し、より広範な実用的な応用への一般化を妨げる可能性がある。
一方、統一評価基準が存在しないことは、異なる融合法間の公正かつ客観的な比較を困難にしている。
その結果、真に普遍的で高性能な核融合モデルはまだ登場していない。
これらの課題に対処するため,我々はマルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークは、主要なアプリケーションドメインにわたる15のモダリティと20の予測タスクを含む、30以上のデータセットを統合している。
これを補完するために、我々はまた、最先端モデルと多様な融合パラダイムの標準化実装を含む、オープンソースで統一的で自動化された評価パイプラインを開発しました。
このプラットフォームを活用して、大規模な実験を行い、複数のタスクにまたがる新たなパフォーマンスベースラインの確立に成功しました。
この研究は、マルチモーダル人工知能の分野を新たな高地へと発展させることを目的として、多モーダルモデルの厳密で再現可能な評価のための重要なプラットフォームを学術コミュニティに提供する。
関連論文リスト
- Towards Multimodal Domain Generalization with Few Labels [37.21678123296403]
SSMDG(Semi-Supervised Multimodal Domain Generalization)という新しい問題を紹介し,研究する。
SSMDGは、ラベル付きサンプルが少ないマルチソースデータから堅牢なマルチモーダルモデルを学習することを目的としている。
本稿では,コンセンサス駆動整合規則,分散認識整合規則,クロスモーダルプロトタイプアライメントの3つの主要なコンポーネントを特徴とする統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T12:05:56Z) - MissMAC-Bench: Building Solid Benchmark for Missing Modality Issue in Robust Multimodal Affective Computing [21.70459049925545]
MissMAC-Benchは、公正で統一された評価基準を確立するために設計された総合的なベンチマークである。
2つの原則が提案されており、トレーニング中に欠席することはない。
我々のベンチマークでは、データセットとインスタンスのレベルで、固定されたパターンとランダムなパターンの両方を評価プロトコルに統合しています。
論文 参考訳(メタデータ) (2026-01-31T16:39:34Z) - SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams [53.78257200138774]
本稿では,2つの相補的マルチエージェントモジュールからなる自己進化関連モデル(SERM)を提案する。
我々はSERMを大規模産業環境で評価し、毎日数十億のユーザリクエストを処理している。
論文 参考訳(メタデータ) (2026-01-14T14:31:16Z) - REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization [2.689067085628911]
本稿では,実世界のゲームアプリケーションを用いて,認知負荷検出ベンチマークを拡張したマルチモーダルデータセットを提案する。
タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生している。
xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、体系的にトレーニングされ、評価される。
論文 参考訳(メタデータ) (2025-09-01T17:36:09Z) - Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文 参考訳(メタデータ) (2025-01-30T18:59:36Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。