論文の概要: AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided
Diagnosis
- arxiv url: http://arxiv.org/abs/2401.01074v2
- Date: Sun, 7 Jan 2024 04:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:22:31.828422
- Title: AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided
Diagnosis
- Title(参考訳): alifuse: コンピュータ支援診断のためのマルチモーダル医療データのアライメントとfusing
- Authors: Qiuhui Chen, Yi Hong
- Abstract要約: マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 1.9450973046619378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical data collected for making a diagnostic decision are typically
multi-modal and provide complementary perspectives of a subject. A
computer-aided diagnosis system welcomes multi-modal inputs; however, how to
effectively fuse such multi-modal data is a challenging task and attracts a lot
of attention in the medical research field. In this paper, we propose a
transformer-based framework, called Alifuse, for aligning and fusing
multi-modal medical data. Specifically, we convert images and unstructured and
structured texts into vision and language tokens, and use intramodal and
intermodal attention mechanisms to learn holistic representations of all
imaging and non-imaging data for classification. We apply Alifuse to classify
Alzheimer's disease and obtain state-of-the-art performance on five public
datasets, by outperforming eight baselines. The source code will be available
online later.
- Abstract(参考訳): 診断決定を行うために収集された医療データは、通常マルチモーダルであり、被験者の補完的な視点を提供する。
コンピュータ支援診断システムはマルチモーダル入力を歓迎するが、そのようなマルチモーダルデータを効果的に融合する方法は難しい課題であり、医学研究分野において多くの注目を集めている。
本稿では,マルチモーダル医療データの整合・融合のためのトランスフォーマーベースフレームワークであるAlifuseを提案する。
具体的には,画像と非構造化および構造化テキストを視覚および言語トークンに変換し,イントラモーダルおよびインターモーダル注意機構を用いて全画像および非画像データの全体表現を学習して分類を行う。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
ソースコードは後でオンラインで入手できる。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。
具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。
さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文 参考訳(メタデータ) (2024-09-04T03:46:17Z) - Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。
臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文 参考訳(メタデータ) (2024-05-23T02:22:10Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。