論文の概要: Learning A Multi-Task Transformer Via Unified And Customized Instruction
Tuning For Chest Radiograph Interpretation
- arxiv url: http://arxiv.org/abs/2311.01092v2
- Date: Mon, 4 Mar 2024 04:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:50:02.731221
- Title: Learning A Multi-Task Transformer Via Unified And Customized Instruction
Tuning For Chest Radiograph Interpretation
- Title(参考訳): 胸部x線写真解釈のための統一的・カスタマイズされた命令チューニングによるマルチタスクトランスフォーマの学習
- Authors: Lijian Xu, Ziyu Ni, Xinglong Liu, Xiaosong Wang, Hongsheng Li, and
Shaoting Zhang
- Abstract要約: 本稿では,マルチモーダルな臨床タスクに特化して設計された統一型トランスフォーマーモデルについて述べる。
まず,134万の命令と接地真実対からなるマルチタスク学習データセットを構成する。
また,同種モデル入力とアウトプットを併用して,視力集約的なタスクを単一学習フレームワークに統合することで,1回の読解において臨床解釈可能性を高めることができる。
- 参考スコア(独自算出の注目度): 35.87795950781491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of multi-modal deep learning models has made significant
impacts on clinical applications in the last decade. However, the majority of
models are limited to single-tasking, without considering disease diagnosis is
indeed a multi-task procedure. Here, we demonstrate a unified transformer model
specifically designed for multi-modal clinical tasks by incorporating
customized instruction tuning. We first compose a multi-task training dataset
comprising 13.4 million instruction and ground-truth pairs (with approximately
one million radiographs) for the customized tuning, involving both image- and
pixel-level tasks. Thus, we can unify the various vision-intensive tasks in a
single training framework with homogeneous model inputs and outputs to increase
clinical interpretability in one reading. Finally, we demonstrate the overall
superior performance of our model compared to prior arts on various chest X-ray
benchmarks across multi-tasks in both direct inference and finetuning settings.
Three radiologists further evaluate the generated reports against the recorded
ones, which also exhibit the enhanced explainability of our multi-task model.
- Abstract(参考訳): マルチモーダルディープラーニングモデルの出現は,過去10年間に臨床応用に大きな影響を与えてきた。
しかし、ほとんどのモデルはシングルタスクに限られており、病気の診断は実際はマルチタスクの手順である。
本稿では,カスタマイズした命令調律を組み込んだマルチモーダル臨床タスク用に設計された統一トランスフォーマーモデルを示す。
まず、画像レベルのタスクと画素レベルのタスクの両方を含む、カスタマイズされたチューニングのための134万の命令と(約100万のラジオグラフを含む)地対からなるマルチタスクトレーニングデータセットを構成する。
そこで, 同種モデル入力と出力を用いて, 視覚集約的なタスクを単一学習フレームワークに統合し, 臨床解釈性の向上を図る。
最後に,複数タスクの胸部X線ベンチマークにおいて,直接推論と微調整の両方で先行技術と比較して,モデル全体の優れた性能を示す。
3人の放射線学者が記録されたものに対する報告を更に評価し、マルチタスクモデルの強化された説明可能性を示した。
関連論文リスト
- Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging [114.43429928419755]
バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic
Cross-modal Learnable Prompts [14.681493967465693]
動的クロスモーダル学習型プロンプトを用いた統一医療ビジョン言語モデルUniDCPを提案する。
UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクを実行することができる。
論文 参考訳(メタデータ) (2023-12-18T13:18:24Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Medical Multimodal-Multitask Foundation Model for Superior Chest CT
Performance [14.850088420906175]
患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
第一種医療マルチモーダルマルチタスク基盤モデル(M3FM)を提案する。
M3FMは、肺がんスクリーニング、心臓疾患予測、その他のCT関連タスクに優れたボリュームCT画像撮影性能を実現している。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Efficient Extraction of Pathologies from C-Spine Radiology Reports using
Multi-Task Learning [3.0473556982158625]
マルチタスクモデルは、様々なタスクで微調整された複数のBERTモデルの性能を達成または達成可能であることを示す。
内科医の頚椎X線所見に対する本法の有効性について検討した。
論文 参考訳(メタデータ) (2022-04-09T20:29:48Z) - Multi-Domain Balanced Sampling Improves Out-of-Distribution
Generalization of Chest X-ray Pathology Prediction Models [67.2867506736665]
そこで本研究では, 簡単なバッチサンプリング手法を用いた胸部X線像の分布外一般化法を提案する。
複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-12-27T15:28:01Z) - MultiMix: Sparingly Supervised, Extreme Multitask Learning From Medical
Images [13.690075845927606]
本稿では,病気の分類と解剖学的分類を軽視的に学習する新しいマルチタスク学習モデルであるMultiMixを提案する。
胸部X線画像からの肺炎の分類と肺の分画に対するマルチタスキングモデルの有効性について検討した。
論文 参考訳(メタデータ) (2020-10-28T03:47:29Z) - Partly Supervised Multitask Learning [19.64371980996412]
胸部X線データを用いた実験結果から,S$4$MTLモデルは半教師付き単一タスク,半教師付きマルチタスク,完全教師付き単一タスクモデルよりも優れていたことが示唆された。
提案手法は, 医用画像領域だけでなく, 汎用視覚タスクにも有効である, という仮説を立てる。
論文 参考訳(メタデータ) (2020-05-05T22:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。