論文の概要: Bidirectional Captioning for Clinically Accurate and Interpretable
Models
- arxiv url: http://arxiv.org/abs/2310.19635v1
- Date: Mon, 30 Oct 2023 15:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:28:41.654643
- Title: Bidirectional Captioning for Clinically Accurate and Interpretable
Models
- Title(参考訳): 臨床精度・解釈性モデルのための双方向キャプション
- Authors: Keegan Quigley, Miriam Cha, Josh Barua, Geeticka Chauhan, Seth
Berkowitz, Steven Horng, Polina Golland
- Abstract要約: 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
本稿では,放射線学レポートの双方向キャプションを事前学習の一形態として実験し,学習した埋め込みの質と有用性を比較検討した。
以上の結果から, コントラスト前訓練と競合する前訓練型視覚エンコーダ(CheXpert competition multi-label AUC 89.4%)の字幕化は, 臨床的に有意な報告が得られた。
- 参考スコア(独自算出の注目度): 4.355562946859011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language pretraining has been shown to produce high-quality visual
encoders which transfer efficiently to downstream computer vision tasks. While
generative language models have gained widespread attention, image captioning
has thus far been mostly overlooked as a form of cross-modal pretraining in
favor of contrastive learning, especially in medical image analysis. In this
paper, we experiment with bidirectional captioning of radiology reports as a
form of pretraining and compare the quality and utility of learned embeddings
with those from contrastive pretraining methods. We optimize a CNN encoder,
transformer decoder architecture named RadTex for the radiology domain. Results
show that not only does captioning pretraining yield visual encoders that are
competitive with contrastive pretraining (CheXpert competition multi-label AUC
of 89.4%), but also that our transformer decoder is capable of generating
clinically relevant reports (captioning macro-F1 score of 0.349 using CheXpert
labeler) and responding to prompts with targeted, interactive outputs.
- Abstract(参考訳): 視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
生成言語モデルが広く注目されている一方で、画像キャプションは、特に医学的画像分析において、対照的な学習を好むクロスモーダルプリトレーニングの形式として見過ごされてきた。
本稿では,放射線学レポートの双方向キャプションを事前学習の一形態として実験し,学習した埋め込みの質と有用性を比較検討した。
我々は、放射線領域にradtexと呼ばれるcnnエンコーダ、トランスフォーマデコーダアーキテクチャを最適化する。
その結果,コントラスト付き事前学習と競合するプリトレーニング型視覚エンコーダ(CheXpert competition multi-label AUC 89.4%)の字幕化だけでなく,臨床関連報告(CheXpert labeler を用いたマクロF1スコア0.349)を生成でき,対象とする対話的出力のプロンプトに応答できることがわかった。
関連論文リスト
- RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training [0.1398098625978622]
RadCLIP(Radlogic Contrastive Language- Image Pre-Training)は、Vision Language Pre-Trainingフレームワークを利用した視覚言語基礎モデルである。
RadCLIPは、放射線画像と対応するテキストアノテーションを合わせるために事前訓練され、放射線画像のための堅牢な視覚バックボーンを形成した。
主なコントリビューションは,多種多様なラジオロジックな2D/3D画像テキストペアを用いた大規模データセットのキュレーション,2D画像の統合のための注意機構を用いたスライスプールアダプタ,および様々なラジオロジック下流タスクにおけるRadCLIPの総合評価である。
論文 参考訳(メタデータ) (2024-03-15T01:18:08Z) - Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers [1.2781698000674653]
既存の事前学習型視覚変換器を用いて4096x4096サイズのパッチをWSI(Whole Slide Image)にエンコードし、それをエンコーダおよびLSTMデコーダとしてレポート生成に使用することを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなく、レポート生成にも有用であることを示すことができる。
論文 参考訳(メタデータ) (2023-11-10T16:48:24Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。