論文の概要: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks
- arxiv url: http://arxiv.org/abs/2309.14118v2
- Date: Mon, 6 Nov 2023 14:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:50:11.845021
- Title: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks
- Title(参考訳): multimodn-マルチモーダル、マルチタスク、解釈可能なモジュラーネットワーク
- Authors: Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs
Vogels, Martin Jaggi, Tanja K\"aser, Mary-Anne Hartley
- Abstract要約: 提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
- 参考スコア(独自算出の注目度): 31.59812777504438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting multiple real-world tasks in a single model often requires a
particularly diverse feature space. Multimodal (MM) models aim to extract the
synergistic predictive potential of multiple data types to create a shared
feature space with aligned semantic meaning across inputs of drastically
varying sizes (i.e. images, text, sound). Most current MM architectures fuse
these representations in parallel, which not only limits their interpretability
but also creates a dependency on modality availability. We present MultiModN, a
multimodal, modular network that fuses latent representations in a sequence of
any number, combination, or type of modality while providing granular real-time
predictive feedback on any number or combination of predictive tasks.
MultiModN's composable pipeline is interpretable-by-design, as well as innately
multi-task and robust to the fundamental issue of biased missingness. We
perform four experiments on several benchmark MM datasets across 10 real-world
tasks (predicting medical diagnoses, academic performance, and weather), and
show that MultiModN's sequential MM fusion does not compromise performance
compared with a baseline of parallel fusion. By simulating the challenging bias
of missing not-at-random (MNAR), this work shows that, contrary to MultiModN,
parallel fusion baselines erroneously learn MNAR and suffer catastrophic
failure when faced with different patterns of MNAR at inference. To the best of
our knowledge, this is the first inherently MNAR-resistant approach to MM
modeling. In conclusion, MultiModN provides granular insights, robustness, and
flexibility without compromising performance.
- Abstract(参考訳): ひとつのモデルで複数の実世界のタスクを予測するには、特に多様な機能領域が必要となることが多い。
マルチモーダル(MM)モデルは、複数のデータ型の相乗的予測ポテンシャルを抽出し、大きく異なるサイズ(画像、テキスト、音声など)の入力に整合した意味を持つ共有特徴空間を作成することを目的としている。
現在のほとんどのMMアーキテクチャはこれらの表現を並列に融合させ、解釈可能性を制限するだけでなく、モダリティの可用性への依存も生み出す。
マルチモーダル・モジュラーネットワークであるMultiModNは,任意の数,組み合わせ,あるいはモダリティの列で潜在表現を融合し,予測タスクの任意の数や組み合わせに対して,より詳細なリアルタイムな予測フィードバックを提供する。
MultiModNのコンポーザブルパイプラインは解釈可能な設計であり、本質的にはマルチタスクであり、偏りの欠如という根本的な問題に対して堅牢である。
実世界の10のタスクを対象としたベンチマークMMデータセット(医療診断,学術的性能,気象予測)の4つの実験を行い,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示した。
MNAR(Not-at-random)の欠如の難解なバイアスをシミュレートすることにより、MNARとは対照的に、並列核融合ベースラインは誤ってMNARを学習し、推論時に異なるMNARパターンに直面すると破滅的な失敗を被ることを示した。
我々の知る限りでは、これはMNARに耐性を持つMMモデリングに対する最初のアプローチである。
結論として、MultiModNはパフォーマンスを損なうことなく、詳細な洞察、堅牢性、柔軟性を提供します。
関連論文リスト
- Multitask and Multimodal Neural Tuning for Large Models [15.34250271841119]
多様なマルチモーダルタスクを同時に処理するために設計されたニューラルチューニングと呼ばれる新しいチューニング手法を提案する。
ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。
本稿では,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:19:51Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文 参考訳(メタデータ) (2022-12-15T21:41:06Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。
実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-20T16:10:07Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。