論文の概要: CT Multi-Task Learning with a Large Image-Text (LIT) Model
- arxiv url: http://arxiv.org/abs/2304.02649v1
- Date: Mon, 3 Apr 2023 20:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 16:40:16.455046
- Title: CT Multi-Task Learning with a Large Image-Text (LIT) Model
- Title(参考訳): 大規模画像テキスト(LIT)モデルを用いたCTマルチタスク学習
- Authors: Chuang Niu and Ge Wang
- Abstract要約: 大規模言語モデル(LLM)は複数の言語タスクに権限を与え、異なる空間にまたがる汎用インターフェースとして機能する。
肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について検討した。
最初の結果から,肺分画,肺検診,肺がんの分類など,LITモデルが複数の医療業務をうまく遂行していることが示唆された。
- 参考スコア(独自算出の注目度): 6.693379403133435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) not only empower multiple language tasks but also
serve as a general interface across different spaces. Up to now, it has not
been demonstrated yet how to effectively translate the successes of LLMs in the
computer vision field to the medical imaging field which involves
high-dimensional and multi-modal medical images. In this paper, we report a
feasibility study of building a multi-task CT large image-text (LIT) model for
lung cancer diagnosis by combining an LLM and a large image model (LIM).
Specifically, the LLM and LIM are used as encoders to perceive multi-modal
information under task-specific text prompts, which synergizes multi-source
information and task-specific and patient-specific priors for optimized
diagnostic performance. The key components of our LIT model and associated
techniques are evaluated with an emphasis on 3D lung CT analysis. Our initial
results show that the LIT model performs multiple medical tasks well, including
lung segmentation, lung nodule detection, and lung cancer classification.
Active efforts are in progress to develop large image-language models for
superior medical imaging in diverse applications and optimal patient outcomes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の言語タスクをパワーアップするだけでなく、異なる空間にまたがる汎用インターフェースとしても機能する。
これまでのところ、コンピュータビジョン分野におけるllmの成功を、高次元およびマルチモーダルな医療画像を含む医療画像分野に効果的に翻訳する方法は、まだ実証されていない。
本稿では,LLMとLIMを併用した肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について報告する。
具体的には、LLMとLIMをエンコーダとして、マルチソース情報とタスク固有の患者固有の先行情報を相乗化して、最適な診断性能を実現するタスク固有のテキストプロンプトに基づいてマルチモーダル情報を知覚する。
LITモデルとそれに関連する技術の重要な要素を3次元肺CT解析に重点を置いて評価した。
肺の分節, 肺結節の検出, 肺がんの分類など, LIT モデルが複数の医療業務をうまく遂行していることを示す。
多様な応用における優れた医用画像と最適な患者結果のための大規模画像言語モデルの開発が進行中である。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。
医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-08-22T18:41:36Z) - FlexCare: Leveraging Cross-Task Synergy for Flexible Multimodal Healthcare Prediction [34.732561455987145]
我々は、不完全なマルチモーダル入力に柔軟に対応するために、textbfFlexCareという統合医療予測モデルを提案する。
タスクに依存しないマルチモーダル情報抽出モジュールを提示し、多様なモダリティ内およびモダリティ間パターンの非相関表現をキャプチャする。
MIMIC-IV/MIMIC-CXR/MIMIC-NOTEデータセットによる複数のタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-17T12:03:10Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。