論文の概要: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks
- arxiv url: http://arxiv.org/abs/2309.14118v2
- Date: Mon, 6 Nov 2023 14:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:50:11.845021
- Title: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks
- Title(参考訳): multimodn-マルチモーダル、マルチタスク、解釈可能なモジュラーネットワーク
- Authors: Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs
Vogels, Martin Jaggi, Tanja K\"aser, Mary-Anne Hartley
- Abstract要約: 提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
- 参考スコア(独自算出の注目度): 31.59812777504438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting multiple real-world tasks in a single model often requires a
particularly diverse feature space. Multimodal (MM) models aim to extract the
synergistic predictive potential of multiple data types to create a shared
feature space with aligned semantic meaning across inputs of drastically
varying sizes (i.e. images, text, sound). Most current MM architectures fuse
these representations in parallel, which not only limits their interpretability
but also creates a dependency on modality availability. We present MultiModN, a
multimodal, modular network that fuses latent representations in a sequence of
any number, combination, or type of modality while providing granular real-time
predictive feedback on any number or combination of predictive tasks.
MultiModN's composable pipeline is interpretable-by-design, as well as innately
multi-task and robust to the fundamental issue of biased missingness. We
perform four experiments on several benchmark MM datasets across 10 real-world
tasks (predicting medical diagnoses, academic performance, and weather), and
show that MultiModN's sequential MM fusion does not compromise performance
compared with a baseline of parallel fusion. By simulating the challenging bias
of missing not-at-random (MNAR), this work shows that, contrary to MultiModN,
parallel fusion baselines erroneously learn MNAR and suffer catastrophic
failure when faced with different patterns of MNAR at inference. To the best of
our knowledge, this is the first inherently MNAR-resistant approach to MM
modeling. In conclusion, MultiModN provides granular insights, robustness, and
flexibility without compromising performance.
- Abstract(参考訳): ひとつのモデルで複数の実世界のタスクを予測するには、特に多様な機能領域が必要となることが多い。
マルチモーダル(MM)モデルは、複数のデータ型の相乗的予測ポテンシャルを抽出し、大きく異なるサイズ(画像、テキスト、音声など)の入力に整合した意味を持つ共有特徴空間を作成することを目的としている。
現在のほとんどのMMアーキテクチャはこれらの表現を並列に融合させ、解釈可能性を制限するだけでなく、モダリティの可用性への依存も生み出す。
マルチモーダル・モジュラーネットワークであるMultiModNは,任意の数,組み合わせ,あるいはモダリティの列で潜在表現を融合し,予測タスクの任意の数や組み合わせに対して,より詳細なリアルタイムな予測フィードバックを提供する。
MultiModNのコンポーザブルパイプラインは解釈可能な設計であり、本質的にはマルチタスクであり、偏りの欠如という根本的な問題に対して堅牢である。
実世界の10のタスクを対象としたベンチマークMMデータセット(医療診断,学術的性能,気象予測)の4つの実験を行い,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示した。
MNAR(Not-at-random)の欠如の難解なバイアスをシミュレートすることにより、MNARとは対照的に、並列核融合ベースラインは誤ってMNARを学習し、推論時に異なるMNARパターンに直面すると破滅的な失敗を被ることを示した。
我々の知る限りでは、これはMNARに耐性を持つMMモデリングに対する最初のアプローチである。
結論として、MultiModNはパフォーマンスを損なうことなく、詳細な洞察、堅牢性、柔軟性を提供します。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文 参考訳(メタデータ) (2022-12-15T21:41:06Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。
実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-20T16:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。