論文の概要: An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis
- arxiv url: http://arxiv.org/abs/2604.02502v1
- Date: Thu, 02 Apr 2026 20:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.196527
- Title: An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis
- Title(参考訳): 腰部脊柱管狭窄症診断のための適応型PID-Tversky損失を用いた視覚言語モデルフレームワーク
- Authors: Md. Sajeebul Islam Sk., Md. Mehedi Hasan Shawon, Md. Golam Rabiul Alam,
- Abstract要約: 既存の視覚言語モデルは、臨床セグメント化データセットでよく見られる極端なクラス不均衡に対処できない。
本稿では、これらの制限を克服するために、エンドツーエンドの説明可能な視覚言語モデルフレームワークを提案する。
診断精度は90.69%,マクロ平均Diceスコアは0.9512,CIDErスコアは92.80%であった。
- 参考スコア(独自算出の注目度): 1.2871968485402088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lumbar Spinal Stenosis (LSS) diagnosis remains a critical clinical challenge, with diagnosis heavily dependent on labor-intensive manual interpretation of multi-view Magnetic Resonance Imaging (MRI), leading to substantial inter-observer variability and diagnostic delays. Existing vision-language models simultaneously fail to address the extreme class imbalance prevalent in clinical segmentation datasets while preserving spatial accuracy, primarily due to global pooling mechanisms that discard crucial anatomical hierarchies. We present an end-to-end Explainable Vision-Language Model framework designed to overcome these limitations, achieved through two principal objectives. We propose a Spatial Patch Cross-Attention module that enables precise, text-directed localization of spinal anomalies with spatial precision. A novel Adaptive PID-Tversky Loss function by integrating control theory principles dynamically further modifies training penalties to specifically address difficult, under-segmented minority instances. By incorporating foundational VLMs alongside an Automated Radiology Report Generation module, our framework demonstrates considerable performance: a diagnostic classification accuracy of 90.69%, a macro-averaged Dice score of 0.9512 for segmentation, and a CIDEr score of 92.80%. Furthermore, the framework shows explainability by converting complex segmentation predictions into radiologist-style clinical reports, thereby establishing a new benchmark for transparent, interpretable AI in clinical medical imaging that keeps essential human supervision while enhancing diagnostic capabilities.
- Abstract(参考訳): 腰部脊柱管狭窄症(LSS)の診断は依然として重要な臨床的課題であり,多視点磁気共鳴画像(MRI)の労働集約的手動解釈に大きく依存している。
既存の視覚言語モデルは、臨床的セグメンテーションデータセットでよく見られる極度のクラス不均衡に同時に対処できないが、主に重要な解剖学的階層を捨てる大域的なプール機構のため、空間的精度を保っている。
本稿では、これらの制限を克服するために、2つの主要な目的を通じて実現された、エンドツーエンドの説明可能な視覚言語モデルフレームワークを提案する。
本研究では,空間的精度で高精度かつテキスト指向の脊髄異常の局所化を可能にする空間的パッチ・クロス・アテンション・モジュールを提案する。
制御理論の原理を動的に統合した新しい適応型PID-Tversky Loss関数は、困難で未解決のマイノリティインスタンスに特に対処するために、トレーニングの罰則を動的に修正する。
診断分類精度は90.69%、マクロ平均Diceスコアは0.9512、CIDErスコアは92.80%である。
さらに、このフレームワークは、複雑なセグメンテーション予測を放射線医のような臨床報告に変換することで説明可能性を示し、診断能力を向上しつつ、人間に不可欠な監督を維持できる、透過的で解釈可能なAIのための新しいベンチマークを確立する。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Ocular-Induced Abnormal Head Posture: Diagnosis and Missing Data Imputation [1.7061463565692456]
AHP(Acular-induced abnormal head posture)は、眼疾患から生じる補充機構である。
本研究では,2つの相補的なディープラーニングフレームワークを通じて,両課題に対処する。
AHP-CADNetは自動診断のための多層注意融合フレームワークである。
カリキュラムベースの計算フレームワークは、欠落したデータを緩和するために設計されている。
論文 参考訳(メタデータ) (2025-10-07T07:51:59Z) - Ensemble Deep Learning and LLM-Assisted Reporting for Automated Skin Lesion Diagnosis [2.9307254086347427]
皮膚科診断のためのAI統合を再定義する統合フレームワークを導入する。
第一に、アーキテクチャ的に多様である畳み込みニューラルネットワークの目的的にヘテロジニアスなアンサンブルは、相補的な診断の視点を提供する。
第2に、診断ワークフローに直接大きな言語モデル機能を組み込んで、分類出力を臨床的に意味のある評価に変換する。
論文 参考訳(メタデータ) (2025-10-05T08:07:33Z) - Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis [2.7946918847372277]
本稿では,放射線技師が提案する関心領域をモデルトレーニングに統合する,専門家による説明可能な数ショット学習フレームワークを提案する。
我々は、BraTS(MRI)とVinDr-CXR(Chest X-ray)の2つの異なるデータセット上で、我々のフレームワークを評価する。
本研究は, 少数症例の医用画像診断において, 評価と解釈のギャップを埋めるために, 専門家が指導する注意指導を取り入れることの有効性を実証するものである。
論文 参考訳(メタデータ) (2025-09-08T05:31:37Z) - XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis [0.0]
LVLMを用いたXDR-LVLM(eXplainable Diabetic Retinopathy diagnosis with LVLM)を提案する。
XDR-LVLMは特殊な医療ビジョン、LVLMコアを統合し、マルチタスク・プロンプトエンジニアリングとマルチステージファインチューニングを採用している。
最先端のパフォーマンスを実現し、バランスド精度は84.55%、F1スコアは79.92%、概念検出には優れた結果が得られる。
論文 参考訳(メタデータ) (2025-08-21T02:14:46Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning [1.5646349560044959]
診断透明性を高めるために2つのコアコンポーネントを統合するフレームワークを提案する。
まず,3次元T1強調脳MRIをテキスト・ラジオグラフィー・レポートに変換するモジュールパイプラインを提案する。
第2に,現代大規模言語モデル(LLM)の可能性を探り,臨床医の鑑別診断を支援する。
論文 参考訳(メタデータ) (2025-05-26T13:18:32Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。