論文の概要: Breast Cancer VLMs: Clinically Practical Vision-Language Train-Inference Models
- arxiv url: http://arxiv.org/abs/2510.25051v1
- Date: Wed, 29 Oct 2025 00:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.884654
- Title: Breast Cancer VLMs: Clinically Practical Vision-Language Train-Inference Models
- Title(参考訳): 乳がんVLM : 臨床応用ビジョン言語モデル
- Authors: Shunjie-Fabian Zheng, Hyeonjun Lee, Thijs Kooi, Ali Diba,
- Abstract要約: 本研究では,2次元マンモグラムの視覚的特徴と,容易にアクセス可能な臨床メタデータから得られる構造化テキスト記述子を組み合わせた新しい枠組みを提案する。
本研究では,畳み込みニューラルネットワーク(ConvNet)と言語表現との戦略的統合が,視覚トランスフォーマーモデルよりも優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 2.7165660672916787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Breast cancer remains the most commonly diagnosed malignancy among women in the developed world. Early detection through mammography screening plays a pivotal role in reducing mortality rates. While computer-aided diagnosis (CAD) systems have shown promise in assisting radiologists, existing approaches face critical limitations in clinical deployment - particularly in handling the nuanced interpretation of multi-modal data and feasibility due to the requirement of prior clinical history. This study introduces a novel framework that synergistically combines visual features from 2D mammograms with structured textual descriptors derived from easily accessible clinical metadata and synthesized radiological reports through innovative tokenization modules. Our proposed methods in this study demonstrate that strategic integration of convolutional neural networks (ConvNets) with language representations achieves superior performance to vision transformer-based models while handling high-resolution images and enabling practical deployment across diverse populations. By evaluating it on multi-national cohort screening mammograms, our multi-modal approach achieves superior performance in cancer detection and calcification identification compared to unimodal baselines, with particular improvements. The proposed method establishes a new paradigm for developing clinically viable VLM-based CAD systems that effectively leverage imaging data and contextual patient information through effective fusion mechanisms.
- Abstract(参考訳): 乳がんは先進国で最も一般的に診断される悪性腫瘍である。
マンモグラフィ検診による早期発見は死亡率の低下に重要な役割を果たしている。
コンピュータ支援診断システム(CAD)は、放射線科医を支援することを約束している一方で、既存のアプローチは、臨床展開において重要な限界に直面している。
本研究では,2次元マンモグラムからの視覚的特徴と,手軽にアクセス可能な臨床メタデータから得られる構造化テキスト記述子とを相乗的に組み合わせ,革新的なトークン化モジュールを通じて放射線学的レポートを合成する新しい枠組みを提案する。
本研究では,畳み込みニューラルネットワーク(ConvNets)と言語表現との戦略的統合が,高解像度の画像処理と多様な個体群への実用的な展開を実現するとともに,視覚トランスフォーマーモデルよりも優れた性能を実現することを示す。
多国間コホート検診のマンモグラムで評価することにより, がん検出および石灰化同定において, 単調なベースラインに比べて優れた性能を示し, 特に改善した。
提案手法は, 画像データと文脈的患者情報を効果的に活用し, 効果的な融合機構を生かした, 臨床的に有効なVLMベースのCADシステムの開発のための新しいパラダイムを確立する。
関連論文リスト
- Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework [5.211860566766601]
この論文は、乳癌の診断を強化するためのヒューマン・センターワークフローにおけるAIの統合に焦点を当てている。
診断の堅牢性と精度を高めるハイブリッド・マルチスケール・マルチビューSwin Transformerベースのフレームワーク(MSMV-Swin)を提案する。
論文 参考訳(メタデータ) (2025-03-17T15:48:56Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Polar-Net: A Clinical-Friendly Model for Alzheimer's Disease Detection
in OCTA Images [53.235117594102675]
オプティカルコヒーレンス・トモグラフィーは、網膜微小血管の画像化によってアルツハイマー病(AD)を検出するための有望なツールである。
我々はPolar-Netと呼ばれる新しいディープラーニングフレームワークを提案し、解釈可能な結果を提供し、臨床上の事前知識を活用する。
Polar-Netは既存の最先端の手法よりも優れており,網膜血管変化とADとの関連性について,より貴重な病理学的証拠を提供する。
論文 参考訳(メタデータ) (2023-11-10T11:49:49Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer
Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。
提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。
臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文 参考訳(メタデータ) (2021-10-05T19:14:46Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。