論文の概要: HyperMM : Robust Multimodal Learning with Varying-sized Inputs
- arxiv url: http://arxiv.org/abs/2407.20768v1
- Date: Tue, 30 Jul 2024 12:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:19:48.804970
- Title: HyperMM : Robust Multimodal Learning with Varying-sized Inputs
- Title(参考訳): HyperMM : 可変サイズの入力を用いたロバストなマルチモーダル学習
- Authors: Hava Chaptoukaev, Vincenzo Marcianó, Francesco Galati, Maria A. Zuluaga,
- Abstract要約: HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
- 参考スコア(独自算出の注目度): 4.377889826841039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining multiple modalities carrying complementary information through multimodal learning (MML) has shown considerable benefits for diagnosing multiple pathologies. However, the robustness of multimodal models to missing modalities is often overlooked. Most works assume modality completeness in the input data, while in clinical practice, it is common to have incomplete modalities. Existing solutions that address this issue rely on modality imputation strategies before using supervised learning models. These strategies, however, are complex, computationally costly and can strongly impact subsequent prediction models. Hence, they should be used with parsimony in sensitive applications such as healthcare. We propose HyperMM, an end-to-end framework designed for learning with varying-sized inputs. Specifically, we focus on the task of supervised MML with missing imaging modalities without using imputation before training. We introduce a novel strategy for training a universal feature extractor using a conditional hypernetwork, and propose a permutation-invariant neural network that can handle inputs of varying dimensions to process the extracted features, in a two-phase task-agnostic framework. We experimentally demonstrate the advantages of our method in two tasks: Alzheimer's disease detection and breast cancer classification. We demonstrate that our strategy is robust to high rates of missing data and that its flexibility allows it to handle varying-sized datasets beyond the scenario of missing modalities.
- Abstract(参考訳): マルチモーダルラーニング(MML)による相補的な情報を運ぶ複数のモダリティを組み合わせることで,複数の病態の診断に有意なメリットが示された。
しかし、マルチモーダルモデルのモダリティの欠如に対する堅牢性はしばしば見過ごされる。
ほとんどの研究は入力データにモダリティ完全性(modality completeness)を仮定するが、臨床実践では不完全なモダリティを持つことが一般的である。
この問題に対処する既存のソリューションは、教師付き学習モデルを使用する前に、モダリティ計算戦略に依存している。
しかし、これらの戦略は複雑で計算コストがかかり、その後の予測モデルに強い影響を与える可能性がある。
したがって、医療などのセンシティブな応用において、パシモニーで使用するべきである。
様々なサイズの入力で学習するためのエンドツーエンドフレームワークであるHyperMMを提案する。
具体的には、トレーニング前にインパルスを使わずに、画像のモダリティを欠く教師付きMMLの課題に焦点をあてる。
本稿では,条件付きハイパーネットワークを用いた普遍的特徴抽出器のトレーニング手法を提案するとともに,異なる次元の入力を処理し,抽出した特徴を2段階のタスク非依存のフレームワークで処理できる置換不変ニューラルネットワークを提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
当社の戦略は、欠落したデータの高いレートに対して堅牢であり、その柔軟性によって、欠落したモダリティのシナリオを超えて、さまざまなサイズのデータセットを処理できることを実証しています。
関連論文リスト
- Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Medical Diagnosis with Large Scale Multimodal Transformers: Leveraging
Diverse Data for More Accurate Diagnosis [0.15776842283814416]
我々は「学習可能なシナジー」の新しい技術的アプローチを提案する。
我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。
臨床的に関連のある診断タスクにおいて、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-18T20:43:37Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Multi-Domain Learning by Meta-Learning: Taking Optimal Steps in
Multi-Domain Loss Landscapes by Inner-Loop Learning [5.490618192331097]
マルチモーダルアプリケーションのためのマルチドメイン学習問題に対するモデル非依存の解法を考える。
我々の手法はモデルに依存しないため、追加のモデルパラメータやネットワークアーキテクチャの変更は不要である。
特に、ホワイトマター高輝度の自動セグメンテーションにおける医療画像のフィッティング問題に対するソリューションを実証します。
論文 参考訳(メタデータ) (2021-02-25T19:54:44Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。