Fugu-MT 論文翻訳(概要): One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data

論文の概要: One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data

arxiv url: http://arxiv.org/abs/2307.05435v3
Date: Mon, 4 Mar 2024 15:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 03:07:29.259551
Title: One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data
Title（参考訳）: One-Versus-Others の注意: 臨床データに対するスケーラブルなマルチモーダル統合
Authors: Michal Golovanevsky, Eva Schiller, Akira Nair, Ritambhara Singh, Carsten Eickhoff
Abstract要約: 我々は新しいドメインニュートラルなアテンション機構であるOne-Versus-Others(OvO)アテンションを提案する。本手法は,計算コストを削減しつつ,一般的な融合技術と比較して性能を向上する。
参考スコア（独自算出の注目度）: 16.263862005367667
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs.
Abstract（参考訳）: マルチモーダル学習モデルは、質問応答から自動運転まで、さまざまなタスクにおける単一モダリティアプローチを上回ってますます重要になっている。マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。 n$モダリティの場合、コンピューティングの注意はn \choose 2$オペレーションとなり、かなりの量の計算リソースが必要になる可能性がある。そこで本研究では,モダリティ数に線形にスケールし,n$の注意操作しか必要とせず,既存のクロスモーダル注意アルゴリズムと比較して計算量を大幅に削減する,新たなドメイン中立的注意機構であるone-versus-others(ovo) attentionを提案する。 3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。

関連論文リスト

HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis [0.0]
ハイブリッド並列フュージョンカスケード注意ネットワーク(HyPCA-Net)を提案する。 HyPCA-Netは、2つの新しいブロックから構成される: (a) モダリティ固有の表現をキャプチャするための計算効率の良い残差適応型学習注意ブロック、(b) 多様なモダリティをまたいだ堅牢な共有表現の学習を目的としたデュアルビューカスケードアテンションブロック。実験の結果、HyPCA-Netは既存の先行手法よりも大幅に優れており、性能は最大5.2%向上し、計算コストは最大73.1%削減された。
論文参考訳（メタデータ） (2026-02-18T07:47:49Z)
impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文参考訳（メタデータ） (2025-08-08T10:01:16Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文参考訳（メタデータ） (2025-05-01T14:51:30Z)
HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文参考訳（メタデータ） (2024-07-30T12:13:18Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。 PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文参考訳（メタデータ） (2023-02-23T18:59:05Z)
Medical Diagnosis with Large Scale Multimodal Transformers: Leveraging Diverse Data for More Accurate Diagnosis [0.15776842283814416]
我々は「学習可能なシナジー」の新しい技術的アプローチを提案する。我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。臨床的に関連のある診断タスクにおいて、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2022-12-18T20:43:37Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)
Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文参考訳（メタデータ） (2021-11-23T16:43:49Z)
Brain Image Synthesis with Unsupervised Multivariate Canonical CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文参考訳（メタデータ） (2021-03-22T05:19:40Z)
Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:28:13Z)
M2Net: Multi-modal Multi-channel Network for Overall Survival Time Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文参考訳（メタデータ） (2020-06-01T05:21:37Z)
Modality-based Factorization for Multimodal Fusion [43.5556371763323]
マルチモーダル推論タスクにおける各モーダルの相対的寄与を理解し,調整するための新しい手法であるMRRF(Modality-based Redundancy Reduction Fusion)を提案する。本手法を感情分析,性格特性認識,感情認識の3つの異なるマルチモーダルデータセットに適用した。これらのタスクの関連性や異なるモダリティの相対的重要性を認識し,3つのタスクの最先端と比較して,いくつかの評価尺度において1%から4%の改善が達成されている。
論文参考訳（メタデータ） (2018-11-30T05:43:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。