論文の概要: Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2
- arxiv url: http://arxiv.org/abs/2501.12356v1
- Date: Tue, 21 Jan 2025 18:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:07.014761
- Title: Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2
- Title(参考訳): 胸部X線自動解釈のための視覚言語モデル: ViT と GPT-2 の活用
- Authors: Md. Rakibul Islam, Md. Zahid Hossain, Mustofa Ahmed, Most. Sharmin Sultana Samu,
- Abstract要約: 我々は、コンピュータビジョンと自然言語処理を統合したマルチモーダルモデルの様々な組み合わせを評価し、放射線学レポートを生成する。
We used Chest X-ray images and report from the IU-Xray dataset to the SWIN Transformer-BART, SWIN Transformer-GPT-2, ViT-B16-BART, ViT-B16-GPT-2 model for report generation。
SWIN-BARTモデルは、ROUGE、BLEU、BERTScoreなど、ほぼすべての評価指標において、顕著な結果を達成する4つのモデルの中で、最高のパフォーマンスモデルとして機能する。
- 参考スコア(独自算出の注目度): 0.1874930567916036
- License:
- Abstract: Radiology plays a pivotal role in modern medicine due to its non-invasive diagnostic capabilities. However, the manual generation of unstructured medical reports is time consuming and prone to errors. It creates a significant bottleneck in clinical workflows. Despite advancements in AI-generated radiology reports, challenges remain in achieving detailed and accurate report generation. In this study we have evaluated different combinations of multimodal models that integrate Computer Vision and Natural Language Processing to generate comprehensive radiology reports. We employed a pretrained Vision Transformer (ViT-B16) and a SWIN Transformer as the image encoders. The BART and GPT-2 models serve as the textual decoders. We used Chest X-ray images and reports from the IU-Xray dataset to evaluate the usability of the SWIN Transformer-BART, SWIN Transformer-GPT-2, ViT-B16-BART and ViT-B16-GPT-2 models for report generation. We aimed at finding the best combination among the models. The SWIN-BART model performs as the best-performing model among the four models achieving remarkable results in almost all the evaluation metrics like ROUGE, BLEU and BERTScore.
- Abstract(参考訳): 放射線医学は、非侵襲的な診断能力のために、現代医学において重要な役割を担っている。
しかし、非構造化医療報告のマニュアル生成は時間がかかり、エラーを起こしやすい。
これは臨床ワークフローにおいて重要なボトルネックを生み出します。
AIが生成した放射線学レポートの進歩にもかかわらず、詳細な正確なレポート生成の達成には依然として課題が残っている。
本研究では,コンピュータビジョンと自然言語処理を統合し,総合的な放射線学レポートを生成するマルチモーダルモデルの組み合わせについて検討した。
プリトレーニングされた視覚変換器(ViT-B16)とSWIN変換器を画像エンコーダとして使用した。
BARTとGPT-2はテキストデコーダとして機能する。
We used Chest X-ray images and report from the IU-Xray dataset to the SWIN Transformer-BART, SWIN Transformer-GPT-2, ViT-B16-BART, ViT-B16-GPT-2 model for report generation。
私たちはモデルの中で最高の組み合わせを見つけることを目指していました。
SWIN-BARTモデルは、ROUGE、BLEU、BERTScoreなど、ほぼすべての評価指標において、顕著な結果を達成する4つのモデルの中で、最高のパフォーマンスモデルとして機能する。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - GPT-4V Cannot Generate Radiology Reports Yet [25.331936045860516]
GPT-4Vの強いマルチモーダル能力は、放射線学レポート作成を自動化するためにそれを使うことに関心を喚起する。
我々は, GPT-4V を用いた報告を異なるプロンプト戦略により直接生成し, 語彙指標と臨床効果指標の両方で異常を生じさせることを試みた。
論文 参考訳(メタデータ) (2024-07-16T21:03:14Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision Transformer-based Model for Severity Quantification of Lung
Pneumonia Using Chest X-ray Images [11.12596879975844]
我々は、新型コロナウイルスや他の肺疾患の重症度を定量化するために、少数のトレーニング可能なパラメータに依存するビジョントランスフォーマーベースのニューラルネットワークモデルを提案する。
本モデルでは,比較的低い計算コストで高一般化性で重大度を定量化する上で,ピーク性能を提供することができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:23Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Vision Transformer using Low-level Chest X-ray Feature Corpus for
COVID-19 Diagnosis and Severity Quantification [25.144248675578286]
バックボーンネットワークから得られた低レベルCXR特徴コーパスを利用した新しいビジョントランスフォーマーを提案する。
バックボーンネットワークはまず、一般的な異常発見を検出するために、大きなパブリックデータセットでトレーニングされる。
次に、バックボーンネットワークからの埋め込み機能は、COVID-19の診断および重症度定量のためのトランスフォーマーモデルのコーポラとして使用されます。
論文 参考訳(メタデータ) (2021-04-15T04:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。