論文の概要: One-Versus-Others Attention: Scalable Multimodal Integration for
Clinical Data
- arxiv url: http://arxiv.org/abs/2307.05435v3
- Date: Mon, 4 Mar 2024 15:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:07:29.259551
- Title: One-Versus-Others Attention: Scalable Multimodal Integration for
Clinical Data
- Title(参考訳): One-Versus-Others の注意: 臨床データに対するスケーラブルなマルチモーダル統合
- Authors: Michal Golovanevsky, Eva Schiller, Akira Nair, Ritambhara Singh,
Carsten Eickhoff
- Abstract要約: 我々は新しいドメインニュートラルなアテンション機構であるOne-Versus-Others(OvO)アテンションを提案する。
本手法は,計算コストを削減しつつ,一般的な融合技術と比較して性能を向上する。
- 参考スコア(独自算出の注目度): 16.263862005367667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning models have become increasingly important as they surpass
single-modality approaches on diverse tasks ranging from question-answering to
autonomous driving. Despite the importance of multimodal learning, existing
efforts focus on NLP applications, where the number of modalities is typically
less than four (audio, video, text, images). However, data inputs in other
domains, such as the medical field, may include X-rays, PET scans, MRIs,
genetic screening, clinical notes, and more, creating a need for both efficient
and accurate information fusion. Many state-of-the-art models rely on pairwise
cross-modal attention, which does not scale well for applications with more
than three modalities. For $n$ modalities, computing attention will result in
$n \choose 2$ operations, potentially requiring considerable amounts of
computational resources. To address this, we propose a new domain-neutral
attention mechanism, One-Versus-Others (OvO) attention, that scales linearly
with the number of modalities and requires only $n$ attention operations, thus
offering a significant reduction in computational complexity compared to
existing cross-modal attention algorithms. Using three diverse real-world
datasets as well as an additional simulation experiment, we show that our
method improves performance compared to popular fusion techniques while
decreasing computation costs.
- Abstract(参考訳): マルチモーダル学習モデルは、質問応答から自動運転まで、さまざまなタスクにおける単一モダリティアプローチを上回ってますます重要になっている。
マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。
しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。
多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。
n$モダリティの場合、コンピューティングの注意はn \choose 2$オペレーションとなり、かなりの量の計算リソースが必要になる可能性がある。
そこで本研究では,モダリティ数に線形にスケールし,n$の注意操作しか必要とせず,既存のクロスモーダル注意アルゴリズムと比較して計算量を大幅に削減する,新たなドメイン中立的注意機構であるone-versus-others(ovo) attentionを提案する。
3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。
関連論文リスト
- Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Medical Diagnosis with Large Scale Multimodal Transformers: Leveraging
Diverse Data for More Accurate Diagnosis [0.15776842283814416]
我々は「学習可能なシナジー」の新しい技術的アプローチを提案する。
我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。
臨床的に関連のある診断タスクにおいて、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-18T20:43:37Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - HAMLET: A Hierarchical Multimodal Attention-based Human Activity
Recognition Algorithm [5.276937617129594]
ヒューマンアクティビティ認識(HAR)は,マルチモーダルデータ融合の難しさから,ロボットにとって困難な課題である。
本研究では,ニューラルネットワークに基づくマルチモーダルアルゴリズムHAMLETを提案する。
上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。
論文 参考訳(メタデータ) (2020-08-03T19:34:48Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z) - Modality-based Factorization for Multimodal Fusion [43.5556371763323]
マルチモーダル推論タスクにおける各モーダルの相対的寄与を理解し,調整するための新しい手法であるMRRF(Modality-based Redundancy Reduction Fusion)を提案する。
本手法を感情分析,性格特性認識,感情認識の3つの異なるマルチモーダルデータセットに適用した。
これらのタスクの関連性や異なるモダリティの相対的重要性を認識し,3つのタスクの最先端と比較して,いくつかの評価尺度において1%から4%の改善が達成されている。
論文 参考訳(メタデータ) (2018-11-30T05:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。