論文の概要: Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
- arxiv url: http://arxiv.org/abs/2601.22853v1
- Date: Fri, 30 Jan 2026 11:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.405882
- Title: Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
- Title(参考訳): 不完全なマルチモーダル分類のための推論時間動的モダリティ選択
- Authors: Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin,
- Abstract要約: Inference-time dynamic modality selection frameworkであるDyMoを提案する。
Central to DyMoは、各テストサンプルのタスク関連情報を最大化する新しい選択アルゴリズムである。
様々な自然・医学的な画像データセットの実験により、DyMoは最先端の不完全/動的MDL法を著しく上回っている。
- 参考スコア(独自算出の注目度): 10.875886838919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal deep learning (MDL) has achieved remarkable success across various domains, yet its practical deployment is often hindered by incomplete multimodal data. Existing incomplete MDL methods either discard missing modalities, risking the loss of valuable task-relevant information, or recover them, potentially introducing irrelevant noise, leading to the discarding-imputation dilemma. To address this dilemma, in this paper, we propose DyMo, a new inference-time dynamic modality selection framework that adaptively identifies and integrates reliable recovered modalities, fully exploring task-relevant information beyond the conventional discard-or-impute paradigm. Central to DyMo is a novel selection algorithm that maximizes multimodal task-relevant information for each test sample. Since direct estimation of such information at test time is intractable due to the unknown data distribution, we theoretically establish a connection between information and the task loss, which we compute at inference time as a tractable proxy. Building on this, a novel principled reward function is proposed to guide modality selection. In addition, we design a flexible multimodal network architecture compatible with arbitrary modality combinations, alongside a tailored training strategy for robust representation learning. Extensive experiments on diverse natural and medical image datasets show that DyMo significantly outperforms state-of-the-art incomplete/dynamic MDL methods across various missing-data scenarios. Our code is available at https://github.com//siyi-wind/DyMo.
- Abstract(参考訳): マルチモーダル・ディープ・ラーニング(MDL)は様々な領域で顕著な成功を収めてきたが、その実践的展開は不完全なマルチモーダルデータによって妨げられていることが多い。
既存の不完全なMDL手法は、欠落したモダリティを破棄し、貴重なタスク関連情報の喪失を危険にさらすか、あるいはそれらを回復する。
このジレンマに対処するために、我々はDyMoという新しい推論時動的モダリティ選択フレームワークを提案し、従来のディスカード・オア・インプット・パラダイムを超えてタスク関連情報を完全に探索し、信頼性の高いモダリティを適応的に識別し統合する。
Central to DyMoは、テストサンプル毎にマルチモーダルタスク関連情報を最大化する新しい選択アルゴリズムである。
テスト時の情報を直接推定するのは未知のデータ分布のため,理論的には情報とタスク損失の関連性を確立し,この関係を抽出可能なプロキシとして計算する。
これに基づいて、モダリティ選択を導くために、新しい原理的報酬関数が提案されている。
さらに、ロバストな表現学習のための調整されたトレーニング戦略とともに、任意のモダリティの組み合わせに適合する柔軟なマルチモーダルネットワークアーキテクチャを設計する。
多様な自然・医療画像データセットに対する大規模な実験により、DyMoは様々な欠落したデータシナリオで最先端の不完全/動的MDLメソッドを著しく上回っていることが示された。
私たちのコードはhttps://github.com//siyi-wind/DyMo.comで利用可能です。
関連論文リスト
- PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。