論文の概要: RepsNet: Combining Vision with Language for Automated Medical Reports
- arxiv url: http://arxiv.org/abs/2209.13171v1
- Date: Tue, 27 Sep 2022 06:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:33:24.225948
- Title: RepsNet: Combining Vision with Language for Automated Medical Reports
- Title(参考訳): RepsNet: 自動化医療レポートのためのビジョンと言語の組み合わせ
- Authors: Ajay Kumar Tanwani, Joelle Barral, Daniel Freedman
- Abstract要約: RepsNetは、トレーニング済みのビジョンと言語モデルを適用して、医療画像の解釈と自然言語による自動レポートを生成する。
医用視覚質問応答(VQA-Rad)と報告生成(IU-Xray)の2つの課題を放射線画像データセット上で実験した。
その結果、RepsNetはVQA-Rad 2018では81.08%、IU-Xrayでは0.58BLEU-1スコアで最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 11.47905071588168
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Writing reports by analyzing medical images is error-prone for inexperienced
practitioners and time consuming for experienced ones. In this work, we present
RepsNet that adapts pre-trained vision and language models to interpret medical
images and generate automated reports in natural language. RepsNet consists of
an encoder-decoder model: the encoder aligns the images with natural language
descriptions via contrastive learning, while the decoder predicts answers by
conditioning on encoded images and prior context of descriptions retrieved by
nearest neighbor search. We formulate the problem in a visual question
answering setting to handle both categorical and descriptive natural language
answers. We perform experiments on two challenging tasks of medical visual
question answering (VQA-Rad) and report generation (IU-Xray) on radiology image
datasets. Results show that RepsNet outperforms state-of-the-art methods with
81.08 % classification accuracy on VQA-Rad 2018 and 0.58 BLEU-1 score on
IU-Xray. Supplementary details are available at
https://sites.google.com/view/repsnet
- Abstract(参考訳): 医用画像解析によるレポート作成は、経験の浅い実践者や経験者にとってエラーを起こしやすい。
本稿では,予め学習した視覚モデルと言語モデルを用いて医療画像の解釈を行い,自然言語で自動レポートを生成するrepsnetを提案する。
RepsNetはエンコーダ-デコーダモデルで構成されており、エンコーダはコントラスト学習によって画像と自然言語記述を整列し、デコーダはエンコーダ画像と近隣の検索によって検索された記述の事前コンテキストを条件付けして回答を予測する。
この問題を視覚的質問応答設定で定式化し,カテゴリー的および記述的自然言語応答の両方を扱う。
医用視覚質問応答(VQA-Rad)と報告生成(IU-Xray)の2つの課題を放射線画像データセット上で実験した。
その結果、RepsNetはVQA-Rad 2018では81.08%、IU-Xrayでは0.58BLEU-1スコアで最先端の手法よりも優れていた。
追加の詳細はhttps://sites.google.com/view/repsnetで確認できる。
関連論文リスト
- RaDialog: A Large Vision-Language Model for Radiology Report Generation
and Conversational Assistance [53.20640629352422]
会話型AIツールは、所定の医療画像に対して臨床的に正しい放射線学レポートを生成し、議論することができる。
RaDialogは、ラジオロジーレポート生成と対話ダイアログのための、初めて徹底的に評価され、公開された大きな視覚言語モデルである。
本手法は,報告生成における最先端の臨床的正確性を実現し,報告の修正や質問への回答などのインタラクティブなタスクにおいて,印象的な能力を示す。
論文 参考訳(メタデータ) (2023-11-30T16:28:40Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images [9.86468773903613]
Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
論文 参考訳(メタデータ) (2023-10-10T21:29:41Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - Automated Knee X-ray Report Generation [12.732469371097347]
本稿では,過去の放射線検査を活かし,画像とレポートの対応を学習できる枠組みを提案する。
本研究では,言語生成モデルの訓練において,個々の試験のイメージ特徴を集約し,条件入力として使用すると,自動生成試験レポートが生成されることを示す。
論文 参考訳(メタデータ) (2021-05-22T11:59:42Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。