Fugu-MT 論文翻訳(概要): Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding

論文の概要: Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding

arxiv url: http://arxiv.org/abs/2501.14548v1
Date: Fri, 24 Jan 2025 14:50:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.787503
Title: Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding
Title（参考訳）: CT画像理解のための大規模・きめ細かな視覚言語事前訓練
Authors: Zhongyi Shui, Jianpeng Zhang, Weiwei Cao, Sinuo Wang, Ruizhe Guo, Le Lu, Lin Yang, Xianghua Ye, Tingbo Liang, Qi Zhang, Ling Zhang,
Abstract要約: 解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
参考スコア（独自算出の注目度）: 17.783231335173486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial intelligence (AI) shows great potential in assisting radiologists to improve the efficiency and accuracy of medical image interpretation and diagnosis. However, a versatile AI model requires large-scale data and comprehensive annotations, which are often impractical in medical settings. Recent studies leverage radiology reports as a naturally high-quality supervision for medical images, using contrastive language-image pre-training (CLIP) to develop language-informed models for radiological image interpretation. Nonetheless, these approaches typically contrast entire images with reports, neglecting the local associations between imaging regions and report sentences, which may undermine model performance and interoperability. In this paper, we propose a fine-grained vision-language model (fVLM) for anatomy-level CT image interpretation. Specifically, we explicitly match anatomical regions of CT images with corresponding descriptions in radiology reports and perform contrastive pre-training for each anatomy individually. Fine-grained alignment, however, faces considerable false-negative challenges, mainly from the abundance of anatomy-level healthy samples and similarly diseased abnormalities. To tackle this issue, we propose identifying false negatives of both normal and abnormal samples and calibrating contrastive learning from patient-level to disease-aware pairing. We curated the largest CT dataset to date, comprising imaging and report data from 69,086 patients, and conducted a comprehensive evaluation of 54 major and important disease diagnosis tasks across 15 main anatomies. Experimental results demonstrate the substantial potential of fVLM in versatile medical image interpretation. In the zero-shot classification task, we achieved an average AUC of 81.3% on 54 diagnosis tasks, surpassing CLIP and supervised methods by 12.9% and 8.0%, respectively.
Abstract（参考訳）: 人工知能(AI)は、医用画像の解釈と診断の効率と精度を向上させるために放射線技師を支援する大きな可能性を示している。しかし、汎用AIモデルには大規模なデータと包括的なアノテーションが必要である。近年の研究では、放射線画像解釈のための言語インフォームドモデルを開発するために、対照的な言語画像事前訓練(CLIP)を用いて、医学画像の自然な高品質の監視として放射線学レポートを活用している。しかしながら、これらのアプローチは一般的に、画像全体とレポートを対比し、画像領域とレポート文の局所的関連を無視し、モデルの性能と相互運用性を損なう可能性がある。本稿では,解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。具体的には,CT画像の解剖学的領域と放射線学的報告の対応する記述とを明示的に一致させ,各解剖学に対して比較的な事前訓練を行う。しかし、微粒なアライメントは、主に解剖学的レベルの健康なサンプルの豊富さと、同様の病気の異常から、かなり偽陰性な課題に直面している。そこで本研究では,正常検体と異常検体の両方の偽陰性を同定し,患者レベルから疾患認識ペアリングまでのコントラスト学習を校正する手法を提案する。今回われわれは,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集し,15大解剖の54大および重要な疾患診断タスクを総合的に評価した。医用画像の多目的解釈におけるfVLMの有用性について実験的に検証した。ゼロショット分類タスクでは,54の診断タスクにおいて平均81.3%のAUCを達成し,CLIPと監督手法をそれぞれ12.9%,8.0%上回った。

関連論文リスト

Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training [18.416499501764207]
我々は、アライメントの有効性を向上させるために、視覚意味密度を高めることを提案する。一方,我々は疾患レベルの視覚的コントラスト学習を通じて視覚意味論を強化する。一方,各解剖学的サンプルの分布をモデル化するための解剖学的正規性モデリング手法を提案する。
論文参考訳（メタデータ） (2025-08-01T06:52:05Z)
OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models [0.49478969093606673]
骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。 28,675枚のCT画像と専門家の報告から評価し、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがる高いパフォーマンスを平均4.28で達成している。
論文参考訳（メタデータ） (2025-07-18T15:01:44Z)
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach [57.86418347491272]
全身に404例の異常所見を呈する包括的階層分類システムを提案する。複数平面および全人体領域からの14.5K以上のCT画像を含むデータセットを寄贈し,19K以上の異常に対する接地アノテーションを念頭に提供した。 OminiAbnorm-CTは,テキストクエリに基づいて,多面的および全身的なCT画像に異常な所見を自動的に検出し,記述することができる。
論文参考訳（メタデータ） (2025-06-03T17:57:34Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
iMedImage Technical Report [5.0953390013898705]
染色体核型解析は遺伝性疾患の診断に不可欠であるが, 構造異常の検出は依然として困難である。一般医用画像認識のためのエンド・ツー・エンド・エンド・モデルiMedImageを開発した。
論文参考訳（メタデータ） (2025-03-27T03:25:28Z)
CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文参考訳（メタデータ） (2024-04-23T17:59:01Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文参考訳（メタデータ） (2023-11-18T14:37:53Z)
An Empirical Analysis for Zero-Shot Multi-Label Classification on COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文参考訳（メタデータ） (2023-09-04T17:58:01Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Self-supervised Learning from 100 Million Medical Images [13.958840691105992]
コントラスト学習とオンライン特徴クラスタリングに基づく,リッチな画像特徴の自己教師付き学習手法を提案する。我々は,X線撮影,CT,MRI,超音波など,様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを活用している。本稿では,X線撮影,CT,MRにおける画像評価の課題に対して,この戦略の多くの利点を強調した。
論文参考訳（メタデータ） (2022-01-04T18:27:04Z)
Potential Features of ICU Admission in X-ray Images of COVID-19 Patients [8.83608410540057]
本稿では,患者ICU入院ラベルを用いたデータセットから,重症度と相関する意味的特徴を抽出する手法を提案する。この手法は、肺の病態を認識して意味的特徴を抽出するために訓練されたニューラルネットワークを使用する。この方法では、学習した特徴の画像を選択でき、肺内の一般的な位置に関する情報を翻訳することができる。
論文参考訳（メタデータ） (2020-09-26T13:48:39Z)
Integrative Analysis for COVID-19 Patient Outcome Prediction [53.11258640541513]
我々は、集中治療室入院の必要性を予測するために、人口統計、バイタルサイン、実験室の所見から、肺不透明度の放射能と非画像の特徴を組み合わせる。また, 地域性肺炎を含む他の肺疾患にも適用できるが, 地域性肺炎に限らない。
論文参考訳（メタデータ） (2020-07-20T19:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。