論文の概要: One-Versus-Others Attention: Scalable Multimodal Integration for Biomedical Data
- arxiv url: http://arxiv.org/abs/2307.05435v4
- Date: Mon, 21 Oct 2024 18:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:43.257160
- Title: One-Versus-Others Attention: Scalable Multimodal Integration for Biomedical Data
- Title(参考訳): One-Versus-Others の注意: バイオメディカルデータのためのスケーラブルなマルチモーダル統合
- Authors: Michal Golovanevsky, Eva Schiller, Akira Nair, Eric Han, Ritambhara Singh, Carsten Eickhoff,
- Abstract要約: 我々は新しいドメインニュートラルなアテンション機構であるOne-Versus-Others(OvO)アテンションを提案する。
本手法は,計算コストを削減しつつ,一般的な融合技術と比較して性能を向上する。
- 参考スコア(独自算出の注目度): 16.747610043585517
- License:
- Abstract: Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs.
- Abstract(参考訳): マルチモーダル学習モデルは、質問応答から自律運転まで多岐にわたるタスクにおいて、単一モーダルなアプローチを超越するにつれて、ますます重要になっている。
マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。
しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。
多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。
モダリティが$n$の場合、計算の注意は$n \choose 2$演算となり、膨大な計算資源を必要とする可能性がある。
そこで本研究では,新たなドメインニュートラルなアテンション機構であるOne-Versus-Others(OvO)アテンションを提案する。
3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。
関連論文リスト
- HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Medical Diagnosis with Large Scale Multimodal Transformers: Leveraging
Diverse Data for More Accurate Diagnosis [0.15776842283814416]
我々は「学習可能なシナジー」の新しい技術的アプローチを提案する。
我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。
臨床的に関連のある診断タスクにおいて、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-18T20:43:37Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Modality-based Factorization for Multimodal Fusion [43.5556371763323]
マルチモーダル推論タスクにおける各モーダルの相対的寄与を理解し,調整するための新しい手法であるMRRF(Modality-based Redundancy Reduction Fusion)を提案する。
本手法を感情分析,性格特性認識,感情認識の3つの異なるマルチモーダルデータセットに適用した。
これらのタスクの関連性や異なるモダリティの相対的重要性を認識し,3つのタスクの最先端と比較して,いくつかの評価尺度において1%から4%の改善が達成されている。
論文 参考訳(メタデータ) (2018-11-30T05:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。