論文の概要: Bidirectional Captioning for Clinically Accurate and Interpretable
Models
- arxiv url: http://arxiv.org/abs/2310.19635v1
- Date: Mon, 30 Oct 2023 15:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:28:41.654643
- Title: Bidirectional Captioning for Clinically Accurate and Interpretable
Models
- Title(参考訳): 臨床精度・解釈性モデルのための双方向キャプション
- Authors: Keegan Quigley, Miriam Cha, Josh Barua, Geeticka Chauhan, Seth
Berkowitz, Steven Horng, Polina Golland
- Abstract要約: 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
本稿では,放射線学レポートの双方向キャプションを事前学習の一形態として実験し,学習した埋め込みの質と有用性を比較検討した。
以上の結果から, コントラスト前訓練と競合する前訓練型視覚エンコーダ(CheXpert competition multi-label AUC 89.4%)の字幕化は, 臨床的に有意な報告が得られた。
- 参考スコア(独自算出の注目度): 4.355562946859011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language pretraining has been shown to produce high-quality visual
encoders which transfer efficiently to downstream computer vision tasks. While
generative language models have gained widespread attention, image captioning
has thus far been mostly overlooked as a form of cross-modal pretraining in
favor of contrastive learning, especially in medical image analysis. In this
paper, we experiment with bidirectional captioning of radiology reports as a
form of pretraining and compare the quality and utility of learned embeddings
with those from contrastive pretraining methods. We optimize a CNN encoder,
transformer decoder architecture named RadTex for the radiology domain. Results
show that not only does captioning pretraining yield visual encoders that are
competitive with contrastive pretraining (CheXpert competition multi-label AUC
of 89.4%), but also that our transformer decoder is capable of generating
clinically relevant reports (captioning macro-F1 score of 0.349 using CheXpert
labeler) and responding to prompts with targeted, interactive outputs.
- Abstract(参考訳): 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
生成言語モデルが広く注目されている一方で、画像キャプションは、特に医学的画像分析において、対照的な学習を好むクロスモーダルプリトレーニングの形式として見過ごされてきた。
本稿では,放射線学レポートの双方向キャプションを事前学習の一形態として実験し,学習した埋め込みの質と有用性を比較検討した。
我々は、放射線領域にradtexと呼ばれるcnnエンコーダ、トランスフォーマデコーダアーキテクチャを最適化する。
その結果,コントラスト付き事前学習と競合するプリトレーニング型視覚エンコーダ(CheXpert competition multi-label AUC 89.4%)の字幕化だけでなく,臨床関連報告(CheXpert labeler を用いたマクロF1スコア0.349)を生成でき,対象とする対話的出力のプロンプトに応答できることがわかった。
関連論文リスト
- Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Understanding Transfer Learning for Chest Radiograph Clinical Report
Generation with Modified Transformer Architectures [0.0]
胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練する。
BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。
論文 参考訳(メタデータ) (2022-05-05T03:08:05Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。