Fugu-MT 論文翻訳(概要): CT Multi-Task Learning with a Large Image-Text (LIT) Model

論文の概要: CT Multi-Task Learning with a Large Image-Text (LIT) Model

arxiv url: http://arxiv.org/abs/2304.02649v1
Date: Mon, 3 Apr 2023 20:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-07 16:40:16.455046
Title: CT Multi-Task Learning with a Large Image-Text (LIT) Model
Title（参考訳）: 大規模画像テキスト(LIT)モデルを用いたCTマルチタスク学習
Authors: Chuang Niu and Ge Wang
Abstract要約: 大規模言語モデル(LLM)は複数の言語タスクに権限を与え、異なる空間にまたがる汎用インターフェースとして機能する。肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について検討した。最初の結果から,肺分画,肺検診,肺がんの分類など,LITモデルが複数の医療業務をうまく遂行していることが示唆された。
参考スコア（独自算出の注目度）: 6.693379403133435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLM) not only empower multiple language tasks but also serve as a general interface across different spaces. Up to now, it has not been demonstrated yet how to effectively translate the successes of LLMs in the computer vision field to the medical imaging field which involves high-dimensional and multi-modal medical images. In this paper, we report a feasibility study of building a multi-task CT large image-text (LIT) model for lung cancer diagnosis by combining an LLM and a large image model (LIM). Specifically, the LLM and LIM are used as encoders to perceive multi-modal information under task-specific text prompts, which synergizes multi-source information and task-specific and patient-specific priors for optimized diagnostic performance. The key components of our LIT model and associated techniques are evaluated with an emphasis on 3D lung CT analysis. Our initial results show that the LIT model performs multiple medical tasks well, including lung segmentation, lung nodule detection, and lung cancer classification. Active efforts are in progress to develop large image-language models for superior medical imaging in diverse applications and optimal patient outcomes.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複数の言語タスクをパワーアップするだけでなく、異なる空間にまたがる汎用インターフェースとしても機能する。これまでのところ、コンピュータビジョン分野におけるllmの成功を、高次元およびマルチモーダルな医療画像を含む医療画像分野に効果的に翻訳する方法は、まだ実証されていない。本稿では,LLMとLIMを併用した肺がん診断のためのマルチタスクCT大画像テキスト(LIT)モデルの構築の可能性について報告する。具体的には、LLMとLIMをエンコーダとして、マルチソース情報とタスク固有の患者固有の先行情報を相乗化して、最適な診断性能を実現するタスク固有のテキストプロンプトに基づいてマルチモーダル情報を知覚する。 LITモデルとそれに関連する技術の重要な要素を3次元肺CT解析に重点を置いて評価した。肺の分節, 肺結節の検出, 肺がんの分類など, LIT モデルが複数の医療業務をうまく遂行していることを示す。多様な応用における優れた医用画像と最適な患者結果のための大規模画像言語モデルの開発が進行中である。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文参考訳（メタデータ） (2025-01-30T06:49:57Z)
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。 MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文参考訳（メタデータ） (2024-09-29T12:23:10Z)
MultiMed: Massively Multimodal and Multitask Medical Understanding [41.160488390597905]
MultiMedは、幅広い医学的モダリティとタスクにわたる大規模学習の評価と有効化を目的として設計されたベンチマークである。医療報告、病理学、ゲノム学、タンパク質データなど10の医療モダリティにまたがる256万のサンプルで構成されている。我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
論文参考訳（メタデータ） (2024-08-22T18:41:36Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
FlexCare: Leveraging Cross-Task Synergy for Flexible Multimodal Healthcare Prediction [34.732561455987145]
我々は、不完全なマルチモーダル入力に柔軟に対応するために、textbfFlexCareという統合医療予測モデルを提案する。タスクに依存しないマルチモーダル情報抽出モジュールを提示し、多様なモダリティ内およびモダリティ間パターンの非相関表現をキャプチャする。 MIMIC-IV/MIMIC-CXR/MIMIC-NOTEデータセットによる複数のタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-06-17T12:03:10Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。 Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文参考訳（メタデータ） (2024-04-16T02:35:17Z)
Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文参考訳（メタデータ） (2023-08-04T17:00:38Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Competence-based Multimodal Curriculum Learning for Medical Report Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文参考訳（メタデータ） (2022-06-24T08:16:01Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。