論文の概要: Fusion or Confusion? Multimodal Complexity Is Not All You Need
- arxiv url: http://arxiv.org/abs/2512.22991v1
- Date: Sun, 28 Dec 2025 16:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.31441
- Title: Fusion or Confusion? Multimodal Complexity Is Not All You Need
- Title(参考訳): 核融合か核融合か? マルチモーダル複雑度だけでは十分ではない
- Authors: Tillmann Rheude, Roland Eils, Benjamin Wild,
- Abstract要約: 標準化された条件下で19のハイインパクト手法を再実装し、最大23のモダリティを持つ9つの多様なデータセットで評価する。
本稿では,マルチモーダル学習のための簡易ベースライン(SimBaMM)を提案する。
私たちは、アーキテクチャのノベルティの追求から離れて、方法論的な厳格さへと焦点を移すことを主張します。
- 参考スコア(独自算出の注目度): 1.2472265402088736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning architectures for multimodal learning have increased in complexity, driven by the assumption that multimodal-specific methods improve performance. We challenge this assumption through a large-scale empirical study reimplementing 19 high-impact methods under standardized conditions, evaluating them across nine diverse datasets with up to 23 modalities, and testing their generalizability to new tasks beyond their original scope, including settings with missing modalities. We propose a Simple Baseline for Multimodal Learning (SimBaMM), a straightforward late-fusion Transformer architecture, and demonstrate that under standardized experimental conditions with rigorous hyperparameter tuning of all methods, more complex architectures do not reliably outperform SimBaMM. Statistical analysis indicates that more complex methods perform comparably to SimBaMM and frequently do not reliably outperform well-tuned unimodal baselines, especially in the small-data regime considered in many original studies. To support our findings, we include a case study of a recent multimodal learning method highlighting the methodological shortcomings in the literature. In addition, we provide a pragmatic reliability checklist to promote comparable, robust, and trustworthy future evaluations. In summary, we argue for a shift in focus: away from the pursuit of architectural novelty and toward methodological rigor.
- Abstract(参考訳): マルチモーダル学習のためのディープラーニングアーキテクチャは、マルチモーダル固有の手法がパフォーマンスを向上させるという仮定によって、複雑さが増している。
我々は、この仮定を、標準化された条件下で19のハイインパクトな手法を再実装し、最大23のモダリティを持つ9つの多様なデータセットにまたがって評価し、欠落したモダリティを持つ設定を含む、元のスコープを超えた新しいタスクへの一般化性をテストすることで、大規模な実証的研究を通じて挑戦する。
SimBaMM (Simple Baseline for Multimodal Learning) は、単純なレイトフュージョントランスフォーマーアーキテクチャであり、全ての手法の厳密なハイパーパラメータチューニングによる標準的な実験条件下では、より複雑なアーキテクチャがSimBaMMを確実に上回らないことを示す。
統計的分析によると、より複雑な手法はSimBaMMと互換性があり、特に多くの原研究で考慮された小型データ体制において、よく調整された単調なベースラインを確実に上回らないことが多い。
文献の方法論的欠点を浮き彫りにした,近年のマルチモーダル学習手法の事例研究を含む。
さらに、我々は、同等で堅牢で信頼性の高い将来の評価を促進するための実用的信頼性チェックリストを提供する。
まとめると、我々は、アーキテクチャのノベルティの追求から離れて、方法論の厳格化へと焦点を移すことを主張している。
関連論文リスト
- FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation [13.855534865501369]
小型言語モデル(SLM)は、その効率的で低レイテンシな推論のため、コスト感受性とリソース制限の設定に魅力的である。
本稿では,SLMに戦略的思考パターンを付加したモジュラー推論フレームワークであるFutureMindを提案する。
論文 参考訳(メタデータ) (2026-02-01T13:26:04Z) - MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains [35.511656323075506]
我々は,マルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークでは,15のモダリティと20の予測タスクを含む,30以上のデータセットを統合している。
また、オープンソース、統一、自動評価パイプラインも開発しました。
論文 参考訳(メタデータ) (2025-11-09T16:37:09Z) - Distributionally Robust Multimodal Machine Learning [1.8788768422083866]
本稿では,マルチモーダル機械学習の理論的および実践的知見の両方を研究することを目的とした,分散ロバスト最適化(DRO)フレームワークを提案する。
シミュレーション設定と実世界のデータセットの両方において,我々のアプローチが堅牢性を向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2025-11-07T21:18:35Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-26T08:09:44Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。