論文の概要: AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction
- arxiv url: http://arxiv.org/abs/2503.20662v1
- Date: Wed, 26 Mar 2025 15:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:17.004490
- Title: AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction
- Title(参考訳): AutoRad-Lung: 肺結節悪性度予測のための放射能誘導型自己回帰視覚ランゲージモデル
- Authors: Sadaf Khademi, Mehran Shabanpour, Reza Taleei, Anastasia Oikonomou, Arash Mohammadi,
- Abstract要約: 肺がんは、世界中でがん関連死亡の原因の1つとなっている。
臨床実践では、放射線技師はCT画像から抽出した定量的で手作りの放射線学的特徴に頼っている。
本稿では,手作りラジオミクスから発生するプロンプトと,自己回帰的に事前訓練されたVLMを結合したAutoRad-Lungを紹介する。
- 参考スコア(独自算出の注目度): 5.736781475109306
- License:
- Abstract: Lung cancer remains one of the leading causes of cancer-related mortality worldwide. A crucial challenge for early diagnosis is differentiating uncertain cases with similar visual characteristics and closely annotation scores. In clinical practice, radiologists rely on quantitative, hand-crafted Radiomic features extracted from Computed Tomography (CT) images, while recent research has primarily focused on deep learning solutions. More recently, Vision-Language Models (VLMs), particularly Contrastive Language-Image Pre-Training (CLIP)-based models, have gained attention for their ability to integrate textual knowledge into lung cancer diagnosis. While CLIP-Lung models have shown promising results, we identified the following potential limitations: (a) dependence on radiologists' annotated attributes, which are inherently subjective and error-prone, (b) use of textual information only during training, limiting direct applicability at inference, and (c) Convolutional-based vision encoder with randomly initialized weights, which disregards prior knowledge. To address these limitations, we introduce AutoRad-Lung, which couples an autoregressively pre-trained VLM, with prompts generated from hand-crafted Radiomics. AutoRad-Lung uses the vision encoder of the Large-Scale Autoregressive Image Model (AIMv2), pre-trained using a multi-modal autoregressive objective. Given that lung tumors are typically small, irregularly shaped, and visually similar to healthy tissue, AutoRad-Lung offers significant advantages over its CLIP-based counterparts by capturing pixel-level differences. Additionally, we introduce conditional context optimization, which dynamically generates context-specific prompts based on input Radiomics, improving cross-modal alignment.
- Abstract(参考訳): 肺がんは、世界中でがん関連死亡の原因の1つとなっている。
早期診断における重要な課題は、類似した視覚的特徴と綿密な注釈スコアを持つ不確実な症例を区別することである。
臨床実践において、放射線技師はCT画像から抽出した定量的で手作りの放射線学的特徴を頼りにしており、最近の研究では主にディープラーニングソリューションに焦点が当てられている。
最近では、VLM(Vision-Language Models)、特にCLIP(Contrastive Language- Image Pre-Training)ベースのモデルが、テキスト知識を肺がん診断に組み込む能力に注目されている。
CLIP-Lungモデルでは有望な結果が得られたが、以下の潜在的な制限が明らかになった。
(a)本来主観的かつ誤認に起因した放射線学者の注釈属性への依存
(b)訓練中のみテキスト情報を使用すること、推論の直接適用性を制限すること、
(c)事前知識を無視したランダム初期化重み付き畳み込み型視覚エンコーダ。
これらの制約に対処するために,手作りラジオミクスから発生するプロンプトと自己回帰事前学習VLMを結合したAutoRad-Lungを導入する。
AutoRad-Lungは、大規模自己回帰画像モデル(AIMv2)の視覚エンコーダを使用しており、マルチモーダル自己回帰目標を用いて事前訓練されている。
肺腫瘍は通常小さく、不規則に形成され、健康な組織と視覚的に類似していることを考えると、AutoRad-LungはCLIPベースの腫瘍に対して、ピクセルレベルの差を捉えて大きな利点をもたらす。
さらに、入力された放射能に基づいて動的に文脈固有のプロンプトを生成する条件付きコンテキスト最適化を導入し、モーダル間のアライメントを改善する。
関連論文リスト
- RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Large Model driven Radiology Report Generation with Clinical Quality
Reinforcement Learning [16.849933628738277]
放射線学報告生成 (RRG) は, 放射線技師の作業量削減の可能性から注目されている。
本稿では,新しいRRG法である textbfLM-RRG について紹介する。
MIMIC-CXRおよびIU-Xrayデータセットを用いた実験により,本手法が技術状況よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-11T13:47:11Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Integration of Radiomics and Tumor Biomarkers in Interpretable Machine
Learning Models [0.0]
本稿では,専門家由来の放射能とDNN予測バイオマーカーを解釈可能な分類器に統合することを提案する。
評価と実用化において,ConRadへの入力は分割CTスキャンのみである。
提案したConRadモデルでは,CBM由来のバイオマーカーと放射能の特徴を解釈可能なMLモデルで組み合わせ,肺悪性度分類に優れる。
論文 参考訳(メタデータ) (2023-03-20T15:00:52Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。