論文の概要: AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided
Diagnosis
- arxiv url: http://arxiv.org/abs/2401.01074v2
- Date: Sun, 7 Jan 2024 04:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:22:31.828422
- Title: AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided
Diagnosis
- Title(参考訳): alifuse: コンピュータ支援診断のためのマルチモーダル医療データのアライメントとfusing
- Authors: Qiuhui Chen, Yi Hong
- Abstract要約: マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 1.9450973046619378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical data collected for making a diagnostic decision are typically
multi-modal and provide complementary perspectives of a subject. A
computer-aided diagnosis system welcomes multi-modal inputs; however, how to
effectively fuse such multi-modal data is a challenging task and attracts a lot
of attention in the medical research field. In this paper, we propose a
transformer-based framework, called Alifuse, for aligning and fusing
multi-modal medical data. Specifically, we convert images and unstructured and
structured texts into vision and language tokens, and use intramodal and
intermodal attention mechanisms to learn holistic representations of all
imaging and non-imaging data for classification. We apply Alifuse to classify
Alzheimer's disease and obtain state-of-the-art performance on five public
datasets, by outperforming eight baselines. The source code will be available
online later.
- Abstract(参考訳): 診断決定を行うために収集された医療データは、通常マルチモーダルであり、被験者の補完的な視点を提供する。
コンピュータ支援診断システムはマルチモーダル入力を歓迎するが、そのようなマルチモーダルデータを効果的に融合する方法は難しい課題であり、医学研究分野において多くの注目を集めている。
本稿では,マルチモーダル医療データの整合・融合のためのトランスフォーマーベースフレームワークであるAlifuseを提案する。
具体的には,画像と非構造化および構造化テキストを視覚および言語トークンに変換し,イントラモーダルおよびインターモーダル注意機構を用いて全画像および非画像データの全体表現を学習して分類を行う。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
ソースコードは後でオンラインで入手できる。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Building RadiologyNET: Unsupervised annotation of a large-scale
multimodal medical database [0.4915744683251151]
医学的診断と治療における機械学習の使用は、近年顕著な成長をみせている。
しかし、アノテーションのプロセスは時間がかかり、コストがかかるため、大きな注釈付き画像データセットが利用できることは大きな障害である。
本稿では, 医用放射線画像のデータベースに意味的類似性について, 自動的に注釈付けを行う方法について検討する。
論文 参考訳(メタデータ) (2023-07-27T13:00:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。