Fugu-MT 論文翻訳(概要): Multimodal Medical Disease Classification with LLaMA II

論文の概要: Multimodal Medical Disease Classification with LLaMA II

arxiv url: http://arxiv.org/abs/2412.01306v1
Date: Mon, 02 Dec 2024 09:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.487097
Title: Multimodal Medical Disease Classification with LLaMA II
Title（参考訳）: LLaMA IIを用いたマルチモーダル医療疾患分類
Authors: Christian Gapp, Elias Tappeiner, Martin Welk, Rainer Schubert,
Abstract要約: 臨床報告に関連付けられた2次元胸部X線によるOpenIのテキストイメージペアデータセットを用いて検討した。我々の焦点は、医療データセットから抽出したテキストと視覚情報を融合するための融合手法である。新たに導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究に容易に適応することができる。
参考スコア（独自算出の注目度）: 0.14999444543328289
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medical patient data is always multimodal. Images, text, age, gender, histopathological data are only few examples for different modalities in this context. Processing and integrating this multimodal data with deep learning based methods is of utmost interest due to its huge potential for medical procedure such as diagnosis and patient treatment planning. In this work we retrain a multimodal transformer-based model for disease classification. To this end we use the text-image pair dataset from OpenI consisting of 2D chest X-rays associated with clinical reports. Our focus is on fusion methods for merging text and vision information extracted from medical datasets. Different architecture structures with a LLaMA II backbone model are tested. Early fusion of modality specific features creates better results with the best model reaching 97.10% mean AUC than late fusion from a deeper level of the architecture (best model: 96.67% mean AUC). Both outperform former classification models tested on the same multimodal dataset. The newly introduced multimodal architecture can be applied to other multimodal datasets with little effort and can be easily adapted for further research, especially, but not limited to, the field of medical AI.
Abstract（参考訳）: 医療データは常にマルチモーダルである。画像、テキスト、年齢、性別、病理学的データは、この文脈における異なるモダリティの例としてはごくわずかである。このマルチモーダルデータを深層学習に基づく手法で処理・統合することは、診断や患者の治療計画といった医療処置に大きな可能性を秘めているため、最も興味深い。本研究では,疾患分類のためのマルチモーダルトランスフォーマーモデルを再学習する。この目的のために,臨床報告に関連する2次元胸部X線を用いたOpenIのテキストイメージペアデータセットを用いた。医用データセットから抽出したテキストと視覚情報を融合する融合手法に焦点を当てた。 LLaMA IIのバックボーンモデルで異なるアーキテクチャ構造をテストする。モジュラリティ固有の特徴の早期融合は、アーキテクチャのより深いレベルでの後期融合よりも97.10%平均AUCに達する(ベストモデル:96.67%平均AUC)。どちらも、同じマルチモーダルデータセットでテストされた以前の分類モデルより優れている。新しく導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究、特に医療AI分野に限らず、容易に適応することができる。

関連論文リスト

What are You Looking at? Modality Contribution in Multimodal Medical Deep Learning Methods [0.13194391758295113]
本稿では,モデルがタスクを果たすためのデータセットにおいて,各モダリティの重要性を測定する手法を提案する。いくつかのネットワークは、一様崩壊の傾向にあるモダリティの選好を持ち、いくつかのデータセットはゼロから不均衡であることがわかった。深層学習に基づくマルチモーダル研究における解釈可能性の分野において,本手法は重要な貢献をする。
論文参考訳（メタデータ） (2025-02-28T12:39:39Z)
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。 UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文参考訳（メタデータ） (2024-12-13T18:59:40Z)
UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology [2.9389205138207277]
UNICORNは動脈硬化の重症度予測のための多段階組織学を処理できるマルチモーダルトランスフォーマーである。このアーキテクチャは、2段階のエンドツーエンドのトレーニング可能なモデルと、トランスフォーマーの自己保持ブロックを利用する特殊なモジュールから構成される。 UNICORNは0.67の分類精度を達成し、他の最先端モデルを上回った。
論文参考訳（メタデータ） (2024-09-26T12:13:52Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems [12.914295902429]
本稿では,MMIST-CCRCCと呼ばれる実世界のマルチモーダルデータセットを紹介する。このデータセットは、クリア細胞腎細胞癌(ccRCC)618例の2つの放射線学的モダリティ(CTとMRI)、病理組織学、ゲノム学、臨床データからなる。このような深刻な欠落率であっても、モダリティの融合は生存予測の改善につながることを示す。
論文参考訳（メタデータ） (2024-05-02T18:29:05Z)
Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文参考訳（メタデータ） (2023-12-26T18:20:48Z)
HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。 The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。 HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-15T17:06:26Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes [1.8351254916713304]
マルチモーダル・エンド・ツー・エンドモデルのセットアップを最適化する新しい手法を提案する。我々はAIforCOVIDデータセット上でテストを行い、最先端の結果を得た。
論文参考訳（メタデータ） (2022-04-07T23:07:33Z)
MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文参考訳（メタデータ） (2022-02-09T04:12:30Z)
Relational Subsets Knowledge Distillation for Long-tailed Retinal Diseases Recognition [65.77962788209103]
本研究では,長尾データを知識に基づいて複数のクラスサブセットに分割し,クラスサブセット学習を提案する。モデルがサブセット固有の知識の学習に集中するように強制する。提案手法は長期網膜疾患認識タスクに有効であることが判明した。
論文参考訳（メタデータ） (2021-04-22T13:39:33Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)
M2Net: Multi-modal Multi-channel Network for Overall Survival Time Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文参考訳（メタデータ） (2020-06-01T05:21:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。