論文の概要: Fusion or Confusion? Multimodal Complexity Is Not All You Need
- arxiv url: http://arxiv.org/abs/2512.22991v1
- Date: Sun, 28 Dec 2025 16:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.31441
- Title: Fusion or Confusion? Multimodal Complexity Is Not All You Need
- Title(参考訳): 核融合か核融合か? マルチモーダル複雑度だけでは十分ではない
- Authors: Tillmann Rheude, Roland Eils, Benjamin Wild,
- Abstract要約: 標準化された条件下で19のハイインパクト手法を再実装し、最大23のモダリティを持つ9つの多様なデータセットで評価する。
本稿では,マルチモーダル学習のための簡易ベースライン(SimBaMM)を提案する。
私たちは、アーキテクチャのノベルティの追求から離れて、方法論的な厳格さへと焦点を移すことを主張します。
- 参考スコア(独自算出の注目度): 1.2472265402088736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning architectures for multimodal learning have increased in complexity, driven by the assumption that multimodal-specific methods improve performance. We challenge this assumption through a large-scale empirical study reimplementing 19 high-impact methods under standardized conditions, evaluating them across nine diverse datasets with up to 23 modalities, and testing their generalizability to new tasks beyond their original scope, including settings with missing modalities. We propose a Simple Baseline for Multimodal Learning (SimBaMM), a straightforward late-fusion Transformer architecture, and demonstrate that under standardized experimental conditions with rigorous hyperparameter tuning of all methods, more complex architectures do not reliably outperform SimBaMM. Statistical analysis indicates that more complex methods perform comparably to SimBaMM and frequently do not reliably outperform well-tuned unimodal baselines, especially in the small-data regime considered in many original studies. To support our findings, we include a case study of a recent multimodal learning method highlighting the methodological shortcomings in the literature. In addition, we provide a pragmatic reliability checklist to promote comparable, robust, and trustworthy future evaluations. In summary, we argue for a shift in focus: away from the pursuit of architectural novelty and toward methodological rigor.
- Abstract(参考訳): マルチモーダル学習のためのディープラーニングアーキテクチャは、マルチモーダル固有の手法がパフォーマンスを向上させるという仮定によって、複雑さが増している。
我々は、この仮定を、標準化された条件下で19のハイインパクトな手法を再実装し、最大23のモダリティを持つ9つの多様なデータセットにまたがって評価し、欠落したモダリティを持つ設定を含む、元のスコープを超えた新しいタスクへの一般化性をテストすることで、大規模な実証的研究を通じて挑戦する。
SimBaMM (Simple Baseline for Multimodal Learning) は、単純なレイトフュージョントランスフォーマーアーキテクチャであり、全ての手法の厳密なハイパーパラメータチューニングによる標準的な実験条件下では、より複雑なアーキテクチャがSimBaMMを確実に上回らないことを示す。
統計的分析によると、より複雑な手法はSimBaMMと互換性があり、特に多くの原研究で考慮された小型データ体制において、よく調整された単調なベースラインを確実に上回らないことが多い。
文献の方法論的欠点を浮き彫りにした,近年のマルチモーダル学習手法の事例研究を含む。
さらに、我々は、同等で堅牢で信頼性の高い将来の評価を促進するための実用的信頼性チェックリストを提供する。
まとめると、我々は、アーキテクチャのノベルティの追求から離れて、方法論の厳格化へと焦点を移すことを主張している。
関連論文リスト
- MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains [35.511656323075506]
我々は,マルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークでは,15のモダリティと20の予測タスクを含む,30以上のデータセットを統合している。
また、オープンソース、統一、自動評価パイプラインも開発しました。
論文 参考訳(メタデータ) (2025-11-09T16:37:09Z) - Distributionally Robust Multimodal Machine Learning [1.8788768422083866]
本稿では,マルチモーダル機械学習の理論的および実践的知見の両方を研究することを目的とした,分散ロバスト最適化(DRO)フレームワークを提案する。
シミュレーション設定と実世界のデータセットの両方において,我々のアプローチが堅牢性を向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2025-11-07T21:18:35Z) - Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-26T08:09:44Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。