論文の概要: Improving Medical Visual Representations via Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2310.19635v2
- Date: Fri, 10 Jan 2025 16:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:58.905496
- Title: Improving Medical Visual Representations via Radiology Report Generation
- Title(参考訳): 放射線診断レポート生成による医用視覚表現の改善
- Authors: Keegan Quigley, Miriam Cha, Josh Barua, Geeticka Chauhan, Seth Berkowitz, Steven Horng, Polina Golland,
- Abstract要約: 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
生成AIの最近の発展は、新しいモデリング代替手段を提供する。
本稿では,ラジオロジーに最適化されたCNN-エンコーダ変換器デコーダアーキテクチャであるRadTexを紹介する。
- 参考スコア(独自算出の注目度): 4.175714080567503
- License:
- Abstract: Vision-language pretraining has been shown to produce high-quality visual encoders which transfer efficiently to downstream computer vision tasks. Contrastive learning approaches have increasingly been adopted for medical vision language pretraining (MVLP), yet recent developments in generative AI offer new modeling alternatives. This paper introduces RadTex, a CNN-encoder transformer-decoder architecture optimized for radiology. We explore bidirectional captioning as an alternative MVLP strategy and demonstrate that RadTex's captioning pretraining is competitive with established contrastive methods, achieving a CheXpert macro-AUC of 89.4%. Additionally, RadTex's lightweight text decoder not only generates clinically relevant radiology reports (macro-F1 score of 0.349), but also provides targeted, interactive responses, highlighting the utility of bidirectional captioning in advancing medical image analysis.
- Abstract(参考訳): 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
医療ビジョン言語事前訓練(MVLP)では、対照的な学習アプローチがますます採用されているが、ジェネレーティブAIの最近の開発は、新しいモデリング代替手段を提供している。
本稿では,ラジオロジーに最適化されたCNN-エンコーダ変換器デコーダアーキテクチャであるRadTexを紹介する。
我々は,代替MVLP戦略としての双方向キャプションについて検討し,RadTexのキャプションプリトレーニングが既存のコントラスト手法と競合していることを示し,CheXpertマクロAUCの89.4%を達成した。
さらに、RadTexの軽量テキストデコーダは、臨床的に関係のある放射線学レポート(macro-F1 score of 0.349)を生成するだけでなく、標的となる双方向キャプションの有用性を強調し、対話的な応答も提供する。
関連論文リスト
- Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Understanding Transfer Learning for Chest Radiograph Clinical Report
Generation with Modified Transformer Architectures [0.0]
胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練する。
BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。
論文 参考訳(メタデータ) (2022-05-05T03:08:05Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。