論文の概要: BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis
- arxiv url: http://arxiv.org/abs/2108.04938v1
- Date: Tue, 10 Aug 2021 21:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:44:56.293066
- Title: BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis
- Title(参考訳): berthop : 胸部x線疾患診断に有効な視覚言語モデル
- Authors: Masoud Monajatipoor, Mozhdeh Rouhsedaghat, Liunian Harold Li, Aichi
Chien, C.-C. Jay Kuo, Fabien Scalzo, and Kai-Wei Chang
- Abstract要約: ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。
BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
- 参考スコア(独自算出の注目度): 42.917164607812886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language(V&L) models take image and text as input and learn to
capture the associations between them. Prior studies show that pre-trained V&L
models can significantly improve the model performance for downstream tasks
such as Visual Question Answering (VQA). However, V&L models are less effective
when applied in the medical domain (e.g., on X-ray images and clinical notes)
due to the domain gap. In this paper, we investigate the challenges of applying
pre-trained V&L models in medical applications. In particular, we identify that
the visual representation in general V&L models is not suitable for processing
medical data. To overcome this limitation, we propose BERTHop, a
transformer-based model based on PixelHop++ and VisualBERT, for better
capturing the associations between the two modalities. Experiments on the OpenI
dataset, a commonly used thoracic disease diagnosis benchmark, show that
BERTHop achieves an average Area Under the Curve (AUC) of 98.12% which is 1.62%
higher than state-of-the-art (SOTA) while it is trained on a 9 times smaller
dataset.
- Abstract(参考訳): vision-and-language(v&l)モデルは、画像とテキストを入力として、それらの間の関連をキャプチャする。
事前学習されたv&lモデルは、視覚質問応答(vqa)のような下流タスクのモデル性能を著しく向上させることができる。
しかしながら、V&Lモデルは、医療領域(例えば、X線画像や臨床ノート)で適用した場合、ドメインギャップのため、効果が低い。
本稿では,医療応用における事前学習型V&Lモデルの適用課題について検討する。
特に、一般的なV&Lモデルにおける視覚的表現は、医療データ処理には適さない。
この制限を克服するために,PixelHop++とVisualBERTをベースとしたトランスフォーマーモデルであるBERTHopを提案する。
一般に使用される胸部疾患診断のベンチマークであるOpenIデータセットの実験では、BERTHopは、9倍のデータセットでトレーニングされている間、最先端(SOTA)よりも1.62%高い98.12%の平均的な曲線下面積を達成している。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル(MLLM),少数ショットプロンプト(FP),視覚的グラウンドディング(VG)を統合した最初のモデルである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文 参考訳(メタデータ) (2024-01-12T02:43:58Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。