Fugu-MT 論文翻訳(概要): MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks

論文の概要: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks

arxiv url: http://arxiv.org/abs/2309.14118v2
Date: Mon, 6 Nov 2023 14:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 20:50:11.845021
Title: MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks
Title（参考訳）: multimodn-マルチモーダル、マルチタスク、解釈可能なモジュラーネットワーク
Authors: Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs Vogels, Martin Jaggi, Tanja K\"aser, Mary-Anne Hartley
Abstract要約: 提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
参考スコア（独自算出の注目度）: 31.59812777504438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM architectures fuse these representations in parallel, which not only limits their interpretability but also creates a dependency on modality availability. We present MultiModN, a multimodal, modular network that fuses latent representations in a sequence of any number, combination, or type of modality while providing granular real-time predictive feedback on any number or combination of predictive tasks. MultiModN's composable pipeline is interpretable-by-design, as well as innately multi-task and robust to the fundamental issue of biased missingness. We perform four experiments on several benchmark MM datasets across 10 real-world tasks (predicting medical diagnoses, academic performance, and weather), and show that MultiModN's sequential MM fusion does not compromise performance compared with a baseline of parallel fusion. By simulating the challenging bias of missing not-at-random (MNAR), this work shows that, contrary to MultiModN, parallel fusion baselines erroneously learn MNAR and suffer catastrophic failure when faced with different patterns of MNAR at inference. To the best of our knowledge, this is the first inherently MNAR-resistant approach to MM modeling. In conclusion, MultiModN provides granular insights, robustness, and flexibility without compromising performance.
Abstract（参考訳）: ひとつのモデルで複数の実世界のタスクを予測するには、特に多様な機能領域が必要となることが多い。マルチモーダル(MM)モデルは、複数のデータ型の相乗的予測ポテンシャルを抽出し、大きく異なるサイズ(画像、テキスト、音声など)の入力に整合した意味を持つ共有特徴空間を作成することを目的としている。現在のほとんどのMMアーキテクチャはこれらの表現を並列に融合させ、解釈可能性を制限するだけでなく、モダリティの可用性への依存も生み出す。マルチモーダル・モジュラーネットワークであるMultiModNは,任意の数,組み合わせ,あるいはモダリティの列で潜在表現を融合し,予測タスクの任意の数や組み合わせに対して,より詳細なリアルタイムな予測フィードバックを提供する。 MultiModNのコンポーザブルパイプラインは解釈可能な設計であり、本質的にはマルチタスクであり、偏りの欠如という根本的な問題に対して堅牢である。実世界の10のタスクを対象としたベンチマークMMデータセット(医療診断,学術的性能,気象予測)の4つの実験を行い,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示した。 MNAR(Not-at-random)の欠如の難解なバイアスをシミュレートすることにより、MNARとは対照的に、並列核融合ベースラインは誤ってMNARを学習し、推論時に異なるMNARパターンに直面すると破滅的な失敗を被ることを示した。我々の知る限りでは、これはMNARに耐性を持つMMモデリングに対する最初のアプローチである。結論として、MultiModNはパフォーマンスを損なうことなく、詳細な洞察、堅牢性、柔軟性を提供します。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
A Step towards Interpretable Multimodal AI Models with MultiFIX [0.0]
MultiFIXは、解釈可能性駆動型マルチモーダルデータ融合パイプラインである。明確に異なるモダリティから特徴を区別し、それらを組み合わせて最終的な予測を行う。特徴抽出と予測モデリングのための複数のトレーニング戦略を用いて,MultiFIXの使用について検討する。
論文参考訳（メタデータ） (2025-05-16T13:54:29Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
Multitask and Multimodal Neural Tuning for Large Models [15.34250271841119]
多様なマルチモーダルタスクを同時に処理するために設計されたニューラルチューニングと呼ばれる新しいチューニング手法を提案する。ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。本稿では,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
論文参考訳（メタデータ） (2024-08-06T07:19:51Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。 TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文参考訳（メタデータ） (2024-01-20T04:46:43Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。 MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文参考訳（メタデータ） (2022-12-15T21:41:06Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-20T16:10:07Z)
Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-10-13T11:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。