論文の概要: Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism
- arxiv url: http://arxiv.org/abs/2504.16774v1
- Date: Wed, 23 Apr 2025 14:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:45:01.144543
- Title: Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism
- Title(参考訳): トランスフォーマーを用いた画像記述子とクロスモデルアテンション機構を用いた胸部X線解析
- Authors: Lakshita Agarwal, Bindu Verma,
- Abstract要約: 本研究では、視覚変換器(ViT)エンコーダと、GPT-4ベースのトランスフォーマーデコーダを統合した新しい画像記述生成モデルを提案する。
このモデルは、国立衛生研究所(NIH)とインディアナ大学(IU)のチェストX線データセットでテストされた。
- 参考スコア(独自算出の注目度): 2.186901738997927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The examination of chest X-ray images is a crucial component in detecting various thoracic illnesses. This study introduces a new image description generation model that integrates a Vision Transformer (ViT) encoder with cross-modal attention and a GPT-4-based transformer decoder. The ViT captures high-quality visual features from chest X-rays, which are fused with text data through cross-modal attention to improve the accuracy, context, and richness of image descriptions. The GPT-4 decoder transforms these fused features into accurate and relevant captions. The model was tested on the National Institutes of Health (NIH) and Indiana University (IU) Chest X-ray datasets. On the IU dataset, it achieved scores of 0.854 (B-1), 0.883 (CIDEr), 0.759 (METEOR), and 0.712 (ROUGE-L). On the NIH dataset, it achieved the best performance on all metrics: BLEU 1--4 (0.825, 0.788, 0.765, 0.752), CIDEr (0.857), METEOR (0.726), and ROUGE-L (0.705). This framework has the potential to enhance chest X-ray evaluation, assisting radiologists in more precise and efficient diagnosis.
- Abstract(参考訳): 胸部X線像の検査は,種々の胸部疾患を検出する上で重要な要素である。
本研究では、視覚変換器(ViT)エンコーダと、GPT-4ベースのトランスフォーマーデコーダを統合した新しい画像記述生成モデルを提案する。
ViTは胸部X線から高画質の視覚的特徴を捉え、テキストデータと融合して画像記述の正確性、文脈、豊かさを改善する。
GPT-4デコーダは、これらの融合した特徴を正確で関連するキャプションに変換する。
このモデルは、国立衛生研究所(NIH)とインディアナ大学(IU)のチェストX線データセットでテストされた。
IUデータセットでは、0.854(B-1)、0.883(CIDEr)、0.759(METEOR)、0.712(ROUGE-L)のスコアを得た。
NIHデータセットでは、BLEU 1--4 (0.825, 0.788, 0.765, 0.752)、CIDEr (0.857), METEOR (0.726), ROUGE-L (0.705) のすべての指標で最高のパフォーマンスを達成した。
この枠組みは胸部X線評価を高める可能性があり、放射線医がより正確かつ効率的な診断を支援する。
関連論文リスト
- Enhancing zero-shot learning in medical imaging: integrating clip with advanced techniques for improved chest x-ray analysis [3.4916237834391874]
CLIP(Contrastive Language- Image Pre-Training)をMomentum Contrast(MoCo)と統合することにより、医用画像におけるゼロショット学習の強化に向けた既存のアプローチを拡張した。
本手法は, クラス不均衡データセットとラベルなしデータセットによる課題に対処し, 肺病変の検出精度の向上を実現する。
論文 参考訳(メタデータ) (2025-03-17T12:59:34Z) - Lung Disease Detection with Vision Transformers: A Comparative Study of Machine Learning Methods [0.0]
本研究では,機械学習における最先端アーキテクチャであるビジョントランスフォーマー(ViT)の胸部X線解析への応用について検討する。
胸部X線像と肺分画領域に焦点を当てた2つのViT法の比較検討を行った。
論文 参考訳(メタデータ) (2024-11-18T08:40:25Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - ELIXR: Towards a general purpose X-ray artificial intelligence system
through alignment of large language models and radiology vision encoders [16.86405732921508]
言語/画像対応X線(ELIXR)の埋め込み手法として,胸部X線タスクを広範囲に行う手法を提案する。
ELIXRはゼロショット胸部X線分類(CXR)で最先端の性能を達成した。
ELIXRはまた、CXRの視覚言語タスクを約束し、視覚的質問応答と報告品質保証タスクで58.7%と62.5%の精度を示した。
論文 参考訳(メタデータ) (2023-08-02T17:59:45Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Optimising Chest X-Rays for Image Analysis by Identifying and Removing
Confounding Factors [49.005337470305584]
新型コロナウイルス(COVID-19)のパンデミック(パンデミック)の間、新型コロナウイルス(COVID-19)の診断のための緊急設定で実施される画像の量は、臨床用CXRの取得が広範囲に及んだ。
公開データセット内の臨床的に取得されたCXRの変動品質は、アルゴリズムのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、新型コロナウイルスの胸部X線データセットを前処理し、望ましくないバイアスを取り除くための、シンプルで効果的なステップワイズアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:57:04Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Exploring the Effect of Image Enhancement Techniques on COVID-19
Detection using Chest X-rays Images [4.457871213347773]
本稿では,様々な画像強調技術の効果について検討し,それぞれが検出性能に与える影響について述べる。
我々はCOVQU-20と呼ばれる最大規模のX線データセットをコンパイルした。
CXR画像のガンマ補正による新型コロナウイルス検出における精度、精度、感度、f1スコア、特異度はそれぞれ96.29%、96.28%、96.29%、96.28%、96.27%であった。
論文 参考訳(メタデータ) (2020-11-25T20:58:27Z) - FLANNEL: Focal Loss Based Neural Network Ensemble for COVID-19 Detection [61.04937460198252]
正常, 細菌性肺炎, 非ウイルス性肺炎, COVID-19の4型を有する2874例のX線画像データを構築した。
FLANNEL(Focal Loss Based Neural Ensemble Network)を提案する。
FLANNELは、すべての指標において、新型コロナウイルス識別タスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-30T03:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。