Fugu-MT 論文翻訳(概要): Dia-LLaMA: Towards Large Language Model-driven CT Report Generation

論文の概要: Dia-LLaMA: Towards Large Language Model-driven CT Report Generation

arxiv url: http://arxiv.org/abs/2403.16386v1
Date: Mon, 25 Mar 2024 03:02:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 16:17:05.291419
Title: Dia-LLaMA: Towards Large Language Model-driven CT Report Generation
Title（参考訳）: Dia-LLaMA:大規模言語モデル駆動型CTレポート生成に向けて
Authors: Zhixuan Chen, Luyang Luo, Yequan Bie, Hao Chen,
Abstract要約: 診断情報をガイダンスとして組み込むことで,CTレポート生成にLLaMA2-7Bを適用するためのフレームワークであるDia-LLaMAを提案する。我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。報告生成のためのLCMを調整し,異常を強調するため,病原体記憶バンクを参照して,追加の診断情報を抽出する。
参考スコア（独自算出の注目度）: 4.634780391920529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical report generation has achieved remarkable advancements yet has still been faced with several challenges. First, the inherent imbalance in the distribution of normal and abnormal cases may lead models to exhibit a biased focus on normal samples, resulting in unreliable diagnoses. Second, the frequent occurrence of common template sentences in the reports may overwhelm the critical abnormal information. Moreover, existing works focus on 2D chest X-rays, leaving CT report generation underexplored due to the high-dimensional nature of CT images and the limited availability of CT-report pairs. Recently, LLM has shown a great ability to generate reliable answers with appropriate prompts, which shed light on addressing the aforementioned challenges. In this paper, we propose Dia-LLaMA, a framework to adapt the LLaMA2-7B for CT report generation by incorporating diagnostic information as guidance prompts. Considering the high dimension of CT, we leverage a pre-trained ViT3D with perceiver to extract the visual information. To tailor the LLM for report generation and emphasize abnormality, we extract additional diagnostic information by referring to a disease prototype memory bank, which is updated during training to capture common disease representations. Furthermore, we introduce disease-aware attention to enable the model to adjust attention for different diseases. Experiments on the chest CT dataset demonstrated that our proposed method outperformed previous methods and achieved state-of-the-art on both clinical efficacy performance and natural language generation metrics. The code will be made publically available.
Abstract（参考訳）: 医療報告の生成は目覚ましい進歩を遂げているが、いくつかの課題に直面している。第一に、正常なケースと異常なケースの分布における固有の不均衡は、モデルが正常なサンプルに偏りを示し、信頼性の低い診断をもたらす可能性がある。第二に、報告に共通するテンプレート文が頻繁に発生することは、重大な異常情報を圧倒する可能性がある。既存の研究は2次元胸部X線に焦点をあてており、CT画像の高次元的性質とCT-Reportペアの限定的利用により、CTレポートの生成が過小評価されている。近年、LCMは、上記の課題に対処する上で、適切なプロンプトで信頼性の高い回答を生成できる優れた能力を示している。本稿では,診断情報をガイダンスとして組み込んだLLaMA2-7BをCTレポート生成に適用するためのフレームワークであるDia-LLaMAを提案する。我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。報告生成のためのLCMを調整し,異常を強調するために,トレーニング中に更新した病原体メモリバンクを参照して,追加の診断情報を抽出し,一般的な疾患の表現を捉える。さらに,異なる疾患に対する注意度をモデルが調整できるようにするために,疾患認識型注意度を導入する。胸部CTデータセットを用いた実験により,提案手法は従来の方法よりも優れており,臨床効果と自然言語生成の指標の両面で最先端の手法が得られた。コードは一般公開される予定だ。

関連論文リスト

A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [2.988064755409503]
2次元CTスライスから腎X線所見を生成するための2段階の枠組みを提案する。まず, マルチタスク学習モデルを用いて構造的異常特徴を抽出し, 病変の属性を同定する。これらの特徴を対応するCT画像と組み合わせ、微調整された視覚言語モデルに入力し、自然言語のレポート文を生成する。
論文参考訳（メタデータ） (2025-06-30T07:45:02Z)
Abn-BLIP: Abnormality-aligned Bootstrapping Language-Image Pre-training for Pulmonary Embolism Diagnosis and Report Generation from CTPA [3.1001390303501153]
Abn-BLIPは放射線診断の精度と包括性を生成するために異常所見の整合を図った高度な診断モデルである。以上の結果から,Abn-BLIPは最先端の医療ビジョン言語モデルおよび3Dレポート生成手法よりも精度および臨床関連性が高いことがわかった。
論文参考訳（メタデータ） (2025-03-03T20:13:39Z)
Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation [15.257119888131609]
胸部X線レポート生成を容易にするために,MLRGと呼ばれるマルチビュー縦断データを用いたコントラスト学習を提案する。具体的には、現在の多視点画像からの空間情報と、長手データからの時間情報を統合する多視点縦コントラスト学習手法を提案する。本稿では,患者固有の事前知識の欠如に対処するトークン化不在符号化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T12:59:04Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes [0.0]
既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。
論文参考訳（メタデータ） (2024-08-21T19:36:27Z)
Beyond the Eye: A Relational Model for Early Dementia Detection Using Retinal OCTA Images [42.75763279888966]
早期発症アルツハイマー病 (AD) と軽度認知障害 (MCI) をコントロールから識別するために, 網膜光コヒーレンストモグラフィー (OCTA) を用いた新しいPolarNet+を提案する。提案手法は,まずカルト座標から極座標へのOCTA画像のマッピングを行う。次に,包括的かつ臨床的に有用な情報抽出のための3次元画像のシリアライズと解析を行う多視点モジュールを提案する。
論文参考訳（メタデータ） (2024-08-09T15:10:34Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
High-Fidelity Image Synthesis from Pulmonary Nodule Lesion Maps using Semantic Diffusion Model [10.412300404240751]
肺がんは、長年にわたり、世界中でがん関連の死因の1つとなっている。ディープラーニング、学習アルゴリズムに基づくコンピュータ支援診断(CAD)モデルは、スクリーニングプロセスを加速することができる。しかし、堅牢で正確なモデルを開発するには、しばしば高品質なアノテーションを備えた大規模で多様な医療データセットが必要である。
論文参考訳（メタデータ） (2023-05-02T01:04:22Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
Explainable multiple abnormality classification of chest CT volumes with AxialNet and HiResCAM [89.2175350956813]
本稿では,容積医用画像における多変量分類の課題について紹介する。本稿では,複数のインスタンス学習型畳み込みニューラルネットワークであるAxialNetを提案する。そして、HiResCAMと3D許容領域を利用した新しいマスクロスにより、モデルの学習を改善することを目指す。
論文参考訳（メタデータ） (2021-11-24T01:14:33Z)
Contrastive Attention for Automatic Chest X-ray Report Generation [124.60087367316531]
ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。本稿では,現在の入力画像と通常の画像を比較してコントラスト情報を抽出するContrastive Attention(CA)モデルを提案する。 2つの公開データセットで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-13T11:20:31Z)
Learning Visual-Semantic Embeddings for Reporting Abnormal Findings on Chest X-rays [6.686095511538683]
本研究は放射線画像の異常所見の報告に焦点を当てる。本稿では, レポートから異常な発見を識別し, 教師なしクラスタリングと最小限のルールで分類する手法を提案する。本手法は, 異常所見を回収し, 臨床正当性およびテキスト生成量の両方で既存の世代モデルより優れていることを示す。
論文参考訳（メタデータ） (2020-10-06T04:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。