論文の概要: Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning
- arxiv url: http://arxiv.org/abs/2511.09893v1
- Date: Fri, 14 Nov 2025 01:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.553899
- Title: Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning
- Title(参考訳): 臨床関連医用画像キャプションのための局所注意増強スイニングトランス
- Authors: Zubia Naz, Farhan Asghar, Muhammad Ishfaq Hussain, Yahya Hadadi, Muhammad Aasim Rafique, Wookjin Choi, Moongu Jeon,
- Abstract要約: 軽量な地域アテンションモジュールを備えたSwin-BARTエンコーダデコーダシステムを提案する。
我々のモデルは、コンパクトで解釈可能なまま、最先端のセマンティック忠実性を達成する。
提案した設計は、正確な、臨床的に言い換えられたキャプションと透明な地域属性をもたらす。
- 参考スコア(独自算出の注目度): 4.754208048304996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated medical image captioning translates complex radiological images into diagnostic narratives that can support reporting workflows. We present a Swin-BART encoder-decoder system with a lightweight regional attention module that amplifies diagnostically salient regions before cross-attention. Trained and evaluated on ROCO, our model achieves state-of-the-art semantic fidelity while remaining compact and interpretable. We report results as mean$\pm$std over three seeds and include $95\%$ confidence intervals. Compared with baselines, our approach improves ROUGE (proposed 0.603, ResNet-CNN 0.356, BLIP2-OPT 0.255) and BERTScore (proposed 0.807, BLIP2-OPT 0.645, ResNet-CNN 0.623), with competitive BLEU, CIDEr, and METEOR. We further provide ablations (regional attention on/off and token-count sweep), per-modality analysis (CT/MRI/X-ray), paired significance tests, and qualitative heatmaps that visualize the regions driving each description. Decoding uses beam search (beam size $=4$), length penalty $=1.1$, $no\_repeat\_ngram\_size$ $=3$, and max length $=128$. The proposed design yields accurate, clinically phrased captions and transparent regional attributions, supporting safe research use with a human in the loop.
- Abstract(参考訳): 医療画像の自動キャプションは、複雑な放射線画像から、報告ワークフローをサポートする診断物語に変換する。
クロスアテンション前に診断的に健全な領域を増幅する軽量な地域アテンションモジュールを備えたSwin-BARTエンコーダデコーダシステムを提案する。
ROCOで訓練・評価し, コンパクトかつ解釈可能なまま, 最先端のセマンティック・忠実性を実現する。
結果は3種平均$\pm$stdで、信頼区間は9,5\%である。
本手法では,ROUGE (0.603, ResNet-CNN 0.356, BLIP2-OPT 0.255), BERTScore (0.807, BLIP2-OPT 0.645, ResNet-CNN 0.623), と競合するBLEU, CIDEr, METEORを改良した。
さらに,各記述を駆動する領域を可視化するアブリケーション(地域的注意/オフ・トークンカウント・スイープ),モーダリティ分析(CT/MRI/X線),ペアの意義テスト,定性的ヒートマップも提供する。
デコードにはビームサーチ(ビームサイズ$=4$)、長さペナルティ$=1.1$, $no\_repeat\_ngram\_size$$=3$, max length$=128$を使用する。
提案した設計は、正確で臨床的に表現されたキャプションと透明な地域属性を出力し、ループ内の人間との安全な研究使用を支援する。
関連論文リスト
- MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification [2.748370039701545]
胸部X線分類のための自己説明可能なアーキテクチャであるMedicalPatchNetを提案する。
MedicalPatchNetはイメージを非重複パッチに分割し、個別に各パッチを分類し、予測を集約する。
MedicalPatchNetは、非AI専門家にもアクセス可能な明示的で信頼性の高い説明を提供することで、ショートカット学習に関連するリスクを軽減している。
論文 参考訳(メタデータ) (2025-09-09T08:02:10Z) - A Fully Transformer Based Multimodal Framework for Explainable Cancer Image Segmentation Using Radiology Reports [2.629902609930227]
Med-CTX(Med-CTX)を導入した。
我々は,臨床放射線学報告を統合して,パフォーマンスと解釈可能性の両立を図った。
BUS-BRAデータセットでは、Diceスコアが99%、IoUが95%に達し、既存のベースラインであるU-Net、ViT、Swinを上回っている。
論文 参考訳(メタデータ) (2025-08-19T12:55:10Z) - Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment [3.5408411348831232]
MRIによる前立腺癌(PCa)のリスク階層化のための,完全に自動化された,解剖学的に指導されたディープラーニングパイプラインを提案する。
パイプラインは、前立腺とそのゾーンを軸方向のT2強調MRI上にセグメント化するためのnnU-Netモジュール、オプションの解剖学的先行と臨床データで3Dパッチに微調整されたDiceedPT Swin Transformer基盤モデルに基づく分類モジュール、決定駆動画像領域をローカライズする反ファクトなヒートマップを生成するVAE-GANフレームワークの3つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-05-23T14:40:09Z) - A simple and effective approach for body part recognition on CT scans based on projection estimation [3.5436187733613087]
本研究は, 身体領域同定のための3次元CTスキャンの2次元X線的推定に基づく, 単純かつ効果的なアプローチを提案する。
提案手法では,14個の異なる身体領域を識別するために推定された2次元画像を用いて,高品質な医療データセットの構築に有用な情報を提供する。
論文 参考訳(メタデータ) (2025-04-30T17:13:44Z) - Cancer-Net PCa-Seg: Benchmarking Deep Learning Models for Prostate Cancer Segmentation Using Synthetic Correlated Diffusion Imaging [65.83291923029985]
前立腺癌(PCa)は米国で最も多いがんであり、約30,000人、全診断の29%、2024年に35,000人が死亡した。
前立腺特異的抗原 (PSA) 検査やMRI (MRI) などの従来のスクリーニング法は診断において重要であるが、特異性や一般化性には限界がある。
U-Net, SegResNet, Swin UNETR, Attention U-Net, LightM-UNetといった最先端のディープラーニングモデルを用いて200ドルのCDIから前立腺を抽出する。
論文 参考訳(メタデータ) (2025-01-15T22:23:41Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。