Fugu-MT 論文翻訳(概要): Improving Chest X-Ray Report Generation by Leveraging Warm Starting

論文の概要: Improving Chest X-Ray Report Generation by Leveraging Warm Starting

arxiv url: http://arxiv.org/abs/2201.09405v2
Date: Wed, 12 Jul 2023 23:14:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 17:55:30.854731
Title: Improving Chest X-Ray Report Generation by Leveraging Warm Starting
Title（参考訳）: 温暖化起動による胸部X線レポート生成の改善
Authors: Aaron Nicolson, Jason Dowling, and Bevan Koopman
Abstract要約: 現在のChest X-Rayレポートジェネレータは、臨床環境で展開する診断精度を欠いている。 CXRレポート生成を改善するために,最近のオープンソースコンピュータビジョンと自然言語処理チェックポイントを用いて,エンコーダとデコーダを温かく起動する。
参考スコア（独自算出の注目度）: 8.487852486413653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically generating a report from a patient's Chest X-Rays (CXRs) is a promising solution to reducing clinical workload and improving patient care. However, current CXR report generators -- which are predominantly encoder-to-decoder models -- lack the diagnostic accuracy to be deployed in a clinical setting. To improve CXR report generation, we investigate warm starting the encoder and decoder with recent open-source computer vision and natural language processing checkpoints, such as the Vision Transformer (ViT) and PubMedBERT. To this end, each checkpoint is evaluated on the MIMIC-CXR and IU X-Ray datasets. Our experimental investigation demonstrates that the Convolutional vision Transformer (CvT) ImageNet-21K and the Distilled Generative Pre-trained Transformer 2 (DistilGPT2) checkpoints are best for warm starting the encoder and decoder, respectively. Compared to the state-of-the-art ($\mathcal{M}^2$ Transformer Progressive), CvT2DistilGPT2 attained an improvement of 8.3\% for CE F-1, 1.8\% for BLEU-4, 1.6\% for ROUGE-L, and 1.0\% for METEOR. The reports generated by CvT2DistilGPT2 have a higher similarity to radiologist reports than previous approaches. This indicates that leveraging warm starting improves CXR report generation. Code and checkpoints for CvT2DistilGPT2 are available at https://github.com/aehrc/cvt2distilgpt2.
Abstract（参考訳）: 患者の胸部X線(CXR)からの報告を自動生成することは、臨床負荷を減らし、患者のケアを改善するための有望な解決策である。しかし、現在のcxrレポートジェネレータ(主にエンコーダからデコーダモデル)は、臨床環境でデプロイされる診断精度を欠いている。 CXRレポート生成を改善するため、最近のオープンソースコンピュータビジョンとViT(Vision Transformer)やPubMedBERT(PubMedBERT)といった自然言語処理チェックポイントを用いて、エンコーダとデコーダを暖かく起動する。この目的のために、各チェックポイントをMIMIC-CXRとIU X線データセットで評価する。本研究では, コンボリューションビジョン変換器 (CvT) ImageNet-21K とDistilled Generative Pre-trained Transformer 2 (DistilGPT2) のチェックポイントが, それぞれエンコーダとデコーダを温めるのに最適であることを示す。 CvT2DistilGPT2はCE F-1では8.3\%、BLEU-4では1.8\%、ROUGE-Lでは1.6\%、METEORでは1.0\%向上した。 CvT2DistilGPT2による報告は、以前のアプローチよりも放射線学者の報告に類似している。これは、ウォームスタートを活用することでCXRレポートの生成が向上することを示している。 CvT2DistilGPT2のコードとチェックポイントはhttps://github.com/aehrc/cvt2distilgpt2で入手できる。

関連論文リスト

Radiology Report Generation with Layer-Wise Anatomical Attention [35.18016233072556]
我々は胸部X線レポートのFinderingsセクションを生成するコンパクトな画像からテキストへのアーキテクチャを提案する。このモデルは凍結した自己蒸留とNo Labels v3 (DINOv3) Vision Transformer (ViT)エンコーダとGenerative Pre-trained Transformer 2 (GPT-2)デコーダを組み合わせたものである。
論文参考訳（メタデータ） (2025-12-18T18:17:57Z)
PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文参考訳（メタデータ） (2025-08-07T13:02:20Z)
Privacy-Preserving Chest X-ray Report Generation via Multimodal Federated Learning with ViT and GPT-2 [0.1874930567916036]
IU-Xrayデータセットを用いた胸部X線レポート生成のためのマルチモーダルフェデレートラーニングフレームワークを提案する。このシステムは、ヴィジュアルトランスフォーマー(ViT)をエンコーダとして、GPT-2をレポートジェネレータとして使用し、生データを共有せずに分散トレーニングを可能にする。その結果、FLは臨床的に関連性があり、セマンティックにリッチな放射線学レポートを作成する際に、集中型モデルと一致または超えることができることがわかった。
論文参考訳（メタデータ） (2025-05-27T20:01:12Z)
Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism [2.186901738997927]
本研究では、視覚変換器(ViT)エンコーダと、GPT-4ベースのトランスフォーマーデコーダを統合した新しい画像記述生成モデルを提案する。このモデルは、国立衛生研究所(NIH)とインディアナ大学(IU)のチェストX線データセットでテストされた。
論文参考訳（メタデータ） (2025-04-23T14:46:10Z)
CoCa-CXR: Contrastive Captioners Learn Strong Temporal Structures for Chest X-Ray Vision-Language Understanding [19.89997101064605]
ヴィジュアル言語モデルは、画像とレポートの両方からリッチなセマンティクスを学ぶため、医療画像分析にとって大きなメリットがあることが証明されている。画像ペアのセマンティクスの違いと整列進行記述に対処する2つのコンポーネントを提案する。 CoCa-CXRは、ペアのCXR画像間の局所的な差異を特定するために、新しい領域横断モジュールを組み込んでいる。
論文参考訳（メタデータ） (2025-02-27T20:39:03Z)
Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2 [0.1874930567916036]
我々は、コンピュータビジョンと自然言語処理を統合したマルチモーダルモデルの様々な組み合わせを評価し、放射線学レポートを生成する。 We used Chest X-ray images and report from the IU-Xray dataset to the SWIN Transformer-BART, SWIN Transformer-GPT-2, ViT-B16-BART, ViT-B16-GPT-2 model for report generation。 SWIN-BARTモデルは、ROUGE、BLEU、BERTScoreなど、ほぼすべての評価指標において、顕著な結果を達成する4つのモデルの中で、最高のパフォーマンスモデルとして機能する。
論文参考訳（メタデータ） (2025-01-21T18:36:18Z)
TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation [0.7381551917607596]
TiBiX:双方向X線とレポート生成のための時間情報を活用する。双方向X線とレポート生成のための時間情報を活用するTiBiXを提案する。
論文参考訳（メタデータ） (2024-03-20T07:00:03Z)
Vision Transformer-based Model for Severity Quantification of Lung Pneumonia Using Chest X-ray Images [11.12596879975844]
我々は、新型コロナウイルスや他の肺疾患の重症度を定量化するために、少数のトレーニング可能なパラメータに依存するビジョントランスフォーマーベースのニューラルネットワークモデルを提案する。本モデルでは,比較的低い計算コストで高一般化性で重大度を定量化する上で,ピーク性能を提供することができる。
論文参考訳（メタデータ） (2023-03-18T12:38:23Z)
Attention-based Saliency Maps Improve Interpretability of Pneumothorax Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。 ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。 ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文参考訳（メタデータ） (2023-03-03T12:05:41Z)
On the Importance of Image Encoding in Automated Chest X-Ray Report Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。自動放射線診断レポート生成は臨床実践において非常に有用なツールです
論文参考訳（メタデータ） (2022-11-24T08:02:52Z)
DeltaNet:Conditional Medical Report Generation for COVID-19 Diagnosis [54.93879264615525]
医療報告を自動生成するDeltaNetを提案する。 DeltaNetはレポートを生成するために3つのステップを採用している。 DeltaNetは最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2022-11-12T07:41:03Z)
DilatedSegNet: A Deep Dilated Segmentation Network for Polyp Segmentation [2.6179759969345002]
大腸癌は世界で2番目に多い死因である。ディープラーニングを利用したコンピュータ支援診断システム(CAD)は、大腸内視鏡検査中に医師が見落としている大腸の領域を検出することができる。高い精度とリアルタイム速度の欠如は、そのようなシステムの臨床的統合を成功させるために克服すべき重要な障害である。
論文参考訳（メタデータ） (2022-10-24T20:36:30Z)
Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文参考訳（メタデータ） (2022-07-10T06:32:56Z)
Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。 CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文参考訳（メタデータ） (2022-06-04T13:16:30Z)
COVID-Net CXR-2: An Enhanced Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-ray Images [58.35627258364233]
RT-PCR検査への無料スクリーニング戦略として胸部X線(CXR)イメージングの使用は成長し続けています。我々は、CXR画像からCOVID-19を検出するための深層畳み込みニューラルネットワーク設計であるCOVID-Net CXR-2を紹介する。ベンチマークデータセットは、少なくとも51カ国16,656人の多国籍コホートから19,203個のCXR画像で構成された。
論文参考訳（メタデータ） (2021-05-14T04:29:21Z)
Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文参考訳（メタデータ） (2020-11-19T05:42:02Z)
CVR-Net: A deep convolutional neural network for coronavirus recognition from chest radiography images [1.869097450593631]
我々は,CTやX線画像からウイルスを自動認識する,CVR-Netと呼ばれる堅牢なCNNベースのネットワークを提案する。提案したCVR-Netを3つの異なるデータセットでトレーニングし、テストします。本モデルでは,タスク1からタスク5に対して,総F1スコアと精度が0.997と0.998,0.963と0.964,0.816と0.820,0.961と0.961,0.780と0.780となる。
論文参考訳（メタデータ） (2020-07-21T18:21:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。