論文の概要: BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
- arxiv url: http://arxiv.org/abs/2410.21969v1
- Date: Tue, 29 Oct 2024 11:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:25.142911
- Title: BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
- Title(参考訳): BenchX: 胸部X線でトレーニングした医用ビジョンランゲージのための統一ベンチマークフレームワーク
- Authors: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh,
- Abstract要約: 本稿では,直接比較と系統解析が可能なベンチマークフレームワークであるBenchXを提案する。
BenchXは3つのコンポーネントで構成されている。1)9つのデータセットと4つの医療タスクをカバーする包括的なデータセット、2)データ前処理、トレイン-テスト分割、パラメータ選択を標準化するためのベンチマークスイート、3)分類、セグメンテーション、レポート生成における一貫したタスク適応のための統一された微調整プロトコル。
- 参考スコア(独自算出の注目度): 21.655183071345675
- License:
- Abstract: Medical Vision-Language Pretraining (MedVLP) shows promise in learning generalizable and transferable visual representations from paired and unpaired medical images and reports. MedVLP can provide useful features to downstream tasks and facilitate adapting task-specific models to new setups using fewer examples. However, existing MedVLP methods often differ in terms of datasets, preprocessing, and finetuning implementations. This pose great challenges in evaluating how well a MedVLP method generalizes to various clinically-relevant tasks due to the lack of unified, standardized, and comprehensive benchmark. To fill this gap, we propose BenchX, a unified benchmark framework that enables head-to-head comparison and systematical analysis between MedVLP methods using public chest X-ray datasets. Specifically, BenchX is composed of three components: 1) Comprehensive datasets covering nine datasets and four medical tasks; 2) Benchmark suites to standardize data preprocessing, train-test splits, and parameter selection; 3) Unified finetuning protocols that accommodate heterogeneous MedVLP methods for consistent task adaptation in classification, segmentation, and report generation, respectively. Utilizing BenchX, we establish baselines for nine state-of-the-art MedVLP methods and found that the performance of some early MedVLP methods can be enhanced to surpass more recent ones, prompting a revisiting of the developments and conclusions from prior works in MedVLP. Our code are available at https://github.com/yangzhou12/BenchX.
- Abstract(参考訳): MedVLP(MedVision-Language Pretraining)は、ペアとペアの医療画像と障害のない医療画像とレポートから、一般化可能かつ伝達可能な視覚表現を学習する際の約束を示す。
MedVLPは、ダウンストリームタスクに便利な機能を提供し、より少ない例を使ってタスク固有のモデルを新しいセットアップに適応させるのを容易にする。
しかし、既存のMedVLPメソッドはデータセット、前処理、微調整の実装の点でしばしば異なる。
このことは、MedVLP法が、統一的、標準化され、包括的なベンチマークが欠如していることから、様々な臨床関連タスクにどのように一般化するかを評価する上で大きな課題となる。
このギャップを埋めるために、我々は、公開胸部X線データセットを用いたMedVLP法間のヘッド・ツー・ヘッド比較と系統解析を可能にする統合ベンチマークフレームワークであるBenchXを提案する。
具体的には、BenchXは3つのコンポーネントで構成されています。
1)9つのデータセットと4つの医療課題を含む包括的データセット
2) データ前処理,トレイン-テスト分割,パラメータ選択の標準化のためのベンチマークスイート。
3)分類,セグメンテーション,レポート生成における一貫したタスク適応のための不均一なMedVLPメソッドに対応する統一微調整プロトコル。
ベンチXを用いて,9つの最先端MedVLP手法のベースラインを確立し,MedVLP手法の性能が近年の手法を上回るように向上し,MedVLPにおける先行研究の展開と結論を再考する。
私たちのコードはhttps://github.com/yangzhou12/BenchXで公開されています。
関連論文リスト
- MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル(MLLM),少数ショットプロンプト(FP),視覚的グラウンドディング(VG)を統合した最初のモデルである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Multi-modal Pre-training for Medical Vision-language Understanding and
Generation: An Empirical Study with A New Benchmark [12.565598914787834]
RGC(RadioGraphy Captions)は、18,434枚の画像キャプチャー対を含む高品質でマルチモードなラジオグラフィーデータセットである。
RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用することができる。
論文 参考訳(メタデータ) (2023-06-10T17:27:33Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - MedFuse: Multi-modal fusion with clinical time-series data and chest
X-ray images [3.6615129560354527]
マルチモーダルフュージョンアプローチは、異なるデータソースからの情報を統合することを目的としている。
オーディオ・ビジュアル・アプリケーションのような自然なデータセットとは異なり、医療におけるデータは非同期に収集されることが多い。
We propose MedFuse, a conceptly simple yet promising LSTM-based fusion module that can accommodate uni-modal as multi-modal input。
論文 参考訳(メタデータ) (2022-07-14T15:59:03Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。