論文の概要: Understanding Transfer Learning for Chest Radiograph Clinical Report
Generation with Modified Transformer Architectures
- arxiv url: http://arxiv.org/abs/2205.02841v1
- Date: Thu, 5 May 2022 03:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 02:27:56.120363
- Title: Understanding Transfer Learning for Chest Radiograph Clinical Report
Generation with Modified Transformer Architectures
- Title(参考訳): 変圧器アーキテクチャを改良した胸部x線写真臨床報告生成のための伝達学習の理解
- Authors: Edward Vendrow, Ethan Schonfeld
- Abstract要約: 胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練する。
BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The image captioning task is increasingly prevalent in artificial
intelligence applications for medicine. One important application is clinical
report generation from chest radiographs. The clinical writing of unstructured
reports is time consuming and error-prone. An automated system would improve
standardization, error reduction, time consumption, and medical accessibility.
In this paper we demonstrate the importance of domain specific pre-training and
propose a modified transformer architecture for the medical image captioning
task. To accomplish this, we train a series of modified transformers to
generate clinical reports from chest radiograph image input. These modified
transformers include: a meshed-memory augmented transformer architecture with
visual extractor using ImageNet pre-trained weights, a meshed-memory augmented
transformer architecture with visual extractor using CheXpert pre-trained
weights, and a meshed-memory augmented transformer whose encoder is passed the
concatenated embeddings using both ImageNet pre-trained weights and CheXpert
pre-trained weights. We use BLEU(1-4), ROUGE-L, CIDEr, and the clinical
CheXbert F1 scores to validate our models and demonstrate competitive scores
with state of the art models. We provide evidence that ImageNet pre-training is
ill-suited for the medical image captioning task, especially for less frequent
conditions (eg: enlarged cardiomediastinum, lung lesion, pneumothorax).
Furthermore, we demonstrate that the double feature model improves performance
for specific medical conditions (edema, consolidation, pneumothorax, support
devices) and overall CheXbert F1 score, and should be further developed in
future work. Such a double feature model, including both ImageNet pre-training
as well as domain specific pre-training, could be used in a wide range of image
captioning models in medicine.
- Abstract(参考訳): 画像キャプションタスクは、医療の人工知能応用でますます普及している。
重要な応用の1つは胸部x線写真からの臨床報告書作成である。
非構造化レポートの臨床的記述は、時間消費とエラーを起こしやすい。
自動化システムは標準化、エラー低減、時間消費、医療アクセス性を改善する。
本稿では,ドメイン固有事前学習の重要性を実証し,医用画像キャプションタスクのための変圧器アーキテクチャを提案する。
そこで我々は,胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練した。
これらの改造トランスには、ImageNet事前学習重量を用いたメッシュメモリ拡張トランスフォーマーアーキテクチャ、CheXpert事前学習重量を用いたメッシュメモリ拡張トランスフォーマーアーキテクチャ、ImageNet事前学習重量とCheXpert事前学習重量を用いた連結埋め込みをエンコーダが通過するメッシュメモリ拡張トランスフォーマーが含まれる。
BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。
我々は,ImageNetプレトレーニングが医療画像キャプションタスク,特に低頻度(拡張中隔,肺病変,気胸など)に不適であることを示す。
さらに, この二重特徴モデルにより, 特定の疾患(浮腫, 統合, 気胸, 支援装置) および総合的chexbert f1スコアのパフォーマンスが向上し, 今後の研究でさらなる発展が期待できることを示した。
このような二重特徴モデルは、ImageNet事前訓練とドメイン固有の事前訓練の両方を含み、医学における幅広い画像キャプションモデルで使用することができる。
関連論文リスト
- Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers [1.2781698000674653]
既存の事前学習型視覚変換器を用いて4096x4096サイズのパッチをWSI(Whole Slide Image)にエンコードし、それをエンコーダおよびLSTMデコーダとしてレポート生成に使用することを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなく、レポート生成にも有用であることを示すことができる。
論文 参考訳(メタデータ) (2023-11-10T16:48:24Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - A New Perspective to Boost Vision Transformer for Medical Image
Classification [33.215289791017064]
本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師付き学習手法を提案する。
我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットのブランチで構成されています。
医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。
論文 参考訳(メタデータ) (2023-01-03T07:45:59Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Self Pre-training with Masked Autoencoders for Medical Image
Classification and Segmentation [37.25161294917211]
Masked Autoencoder (MAE) は自然画像解析のための事前学習型視覚変換器 (ViT) に有効であることが示されている。
医用画像解析タスクにおけるMAEを用いた自己事前学習パラダイムについて検討する。
論文 参考訳(メタデータ) (2022-03-10T16:22:38Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Pre-training and Fine-tuning Transformers for fMRI Prediction Tasks [69.85819388753579]
TFFはトランスフォーマーベースのアーキテクチャと2フェーズのトレーニングアプローチを採用している。
自己教師付きトレーニングは、fMRIスキャンのコレクションに適用され、モデルが3Dボリュームデータの再構成のために訓練される。
その結果、年齢や性別の予測、統合失調症認知など、さまざまなfMRIタスクにおける最先端のパフォーマンスが示された。
論文 参考訳(メタデータ) (2021-12-10T18:04:26Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。