Fugu-MT 論文翻訳(概要): BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis

論文の概要: BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis

arxiv url: http://arxiv.org/abs/2108.04938v1
Date: Tue, 10 Aug 2021 21:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-12 13:44:56.293066
Title: BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis
Title（参考訳）: berthop : 胸部x線疾患診断に有効な視覚言語モデル
Authors: Masoud Monajatipoor, Mozhdeh Rouhsedaghat, Liunian Harold Li, Aichi Chien, C.-C. Jay Kuo, Fabien Scalzo, and Kai-Wei Chang
Abstract要約: ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。 BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
参考スコア（独自算出の注目度）: 42.917164607812886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language(V&L) models take image and text as input and learn to capture the associations between them. Prior studies show that pre-trained V&L models can significantly improve the model performance for downstream tasks such as Visual Question Answering (VQA). However, V&L models are less effective when applied in the medical domain (e.g., on X-ray images and clinical notes) due to the domain gap. In this paper, we investigate the challenges of applying pre-trained V&L models in medical applications. In particular, we identify that the visual representation in general V&L models is not suitable for processing medical data. To overcome this limitation, we propose BERTHop, a transformer-based model based on PixelHop++ and VisualBERT, for better capturing the associations between the two modalities. Experiments on the OpenI dataset, a commonly used thoracic disease diagnosis benchmark, show that BERTHop achieves an average Area Under the Curve (AUC) of 98.12% which is 1.62% higher than state-of-the-art (SOTA) while it is trained on a 9 times smaller dataset.
Abstract（参考訳）: vision-and-language(v&l)モデルは、画像とテキストを入力として、それらの間の関連をキャプチャする。事前学習されたv&lモデルは、視覚質問応答(vqa)のような下流タスクのモデル性能を著しく向上させることができる。しかしながら、V&Lモデルは、医療領域(例えば、X線画像や臨床ノート)で適用した場合、ドメインギャップのため、効果が低い。本稿では,医療応用における事前学習型V&Lモデルの適用課題について検討する。特に、一般的なV&Lモデルにおける視覚的表現は、医療データ処理には適さない。この制限を克服するために,PixelHop++とVisualBERTをベースとしたトランスフォーマーモデルであるBERTHopを提案する。一般に使用される胸部疾患診断のベンチマークであるOpenIデータセットの実験では、BERTHopは、9倍のデータセットでトレーニングされている間、最先端(SOTA)よりも1.62%高い98.12%の平均的な曲線下面積を達成している。

関連論文リスト

Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training [18.416499501764207]
我々は、アライメントの有効性を向上させるために、視覚意味密度を高めることを提案する。一方,我々は疾患レベルの視覚的コントラスト学習を通じて視覚意味論を強化する。一方,各解剖学的サンプルの分布をモデル化するための解剖学的正規性モデリング手法を提案する。
論文参考訳（メタデータ） (2025-08-01T06:52:05Z)
Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文参考訳（メタデータ） (2025-04-03T19:45:22Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル(MLLM),少数ショットプロンプト(FP),視覚的グラウンドディング(VG)を統合した最初のモデルである。その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文参考訳（メタデータ） (2024-03-22T19:19:51Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。 OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文参考訳（メタデータ） (2024-01-12T02:43:58Z)
CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文参考訳（メタデータ） (2023-10-20T05:44:55Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)
Intra-model Variability in COVID-19 Classification Using Chest X-ray Images [0.0]
12の共通ディープラーニングアーキテクチャにおいて,胸部X線におけるCOVID-19検出のためのベースライン性能指標と変数の定量化を行う。最高のパフォーマンスモデルでは、新型コロナウイルスをホールドアウトセットで検出する際の偽陰性率は20点中3点である。
論文参考訳（メタデータ） (2020-04-30T21:20:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。