論文の概要: Fixed-Budget Parameter-Efficient Training with Frozen Encoders Improves Multimodal Chest X-Ray Classification
- arxiv url: http://arxiv.org/abs/2512.21508v1
- Date: Thu, 25 Dec 2025 05:02:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:03:00.87458
- Title: Fixed-Budget Parameter-Efficient Training with Frozen Encoders Improves Multimodal Chest X-Ray Classification
- Title(参考訳): 冷凍エンコーダを用いた固定予算パラメータ効率トレーニングによるマルチモーダル胸部X線分類の改善
- Authors: Md Ashik Khan, Md Nahid Siddique,
- Abstract要約: マルチモーダル胸部X線分析は、しばしば計算コストのかかる大きな視覚言語モデルを微調整する。
我々は,インディアナ大学チェストX線データセットのマルチラベル分類のための冷凍エンコーダ,BitFit,LoRA,アダプタなど,パラメータ効率のよいトレーニング戦略について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multimodal chest X-Ray analysis often fine-tunes large vision-language models, which is computationally costly. We study parameter-efficient training (PET) strategies, including frozen encoders, BitFit, LoRA, and adapters for multi-label classification on the Indiana University Chest X-Ray dataset (3,851 image-report pairs; 579 test samples). To mitigate data leakage, we redact pathology terms from reports used as text inputs while retaining clinical context. Under a fixed parameter budget (2.37M parameters, 2.51% of total), all PET variants achieve AUROC between 0.892 and 0.908, outperforming full fine-tuning (0.770 AUROC), which uses 94.3M trainable parameters, a 40x reduction. External validation on CheXpert (224,316 images, 58x larger) confirms scalability: all PET methods achieve >0.69 AUROC with <9% trainable parameters, with Adapter achieving best performance (0.7214 AUROC). Budget-matched comparisons reveal that vision-only models (0.653 AUROC, 1.06M parameters) outperform budget-matched multimodal models (0.641 AUROC, 1.06M parameters), indicating improvements arise primarily from parameter allocation rather than cross-modal synergy. While PET methods show degraded calibration (ECE: 0.29-0.34) compared to simpler models (ECE: 0.049), this represents a tractable limitation addressable through post-hoc calibration methods. These findings demonstrate that frozen encoder strategies provide superior discrimination at substantially reduced computational cost, though calibration correction is essential for clinical deployment.
- Abstract(参考訳): マルチモーダル胸部X線分析は、しばしば計算コストのかかる大きな視覚言語モデルを微調整する。
我々は,インディアナ大学胸部X線データセット(3,851対,画像レポートペア579検体)上で,凍結エンコーダ,BitFit,LoRA,マルチラベル分類用アダプタなどのパラメータ効率訓練(PET)戦略について検討した。
データ漏洩を軽減するため,臨床コンテキストを維持しながらテキスト入力として使用するレポートから病理用語を再定義する。
固定パラメータ予算(2.37Mパラメータ、2.37Mパラメータ、総2.51%)の下では、PETのすべての変種は0.892から0.908の間でAUROCを達成し、94.3Mのトレーニング可能なパラメータを使用する完全な微調整(0.770 AUROC)よりも優れ、40倍の削減を実現している。
CheXpert (224,316イメージ,58倍) の外部検証ではスケーラビリティが確認されている: すべてのPETメソッドは >0.69 AUROC で、トレーニング可能なパラメータは <9% で、Adapter は最高のパフォーマンス (0.7214 AUROC) を達成している。
予算整合比較の結果、視覚のみのモデル(0.653 AUROC, 1.06Mパラメータ)は予算整合型マルチモーダルモデル(0.641 AUROC, 1.06Mパラメータ)よりも優れており、クロスモーダルの相乗効果よりもパラメータ割り当てによる改善が主であることを示している。
PET法は、単純なモデル(ECE:0.049)と比較して劣化したキャリブレーション(ECE: 0.29-0.34)を示すが、これはポストホックキャリブレーション法で対処可能なトラクタブル制限を表す。
これらの結果から, 凍結エンコーダ法は, クリニカル展開には校正補正が不可欠であるが, 計算コストを大幅に削減する上で, 優れた差別性をもたらすことが示唆された。
関連論文リスト
- Generalizable Diabetes Risk Stratification via Hybrid Machine Learning Models [0.0]
糖尿病は世界中で5億3700万人を超え、2045年までに7億8300万人に達すると予測されている。
2つのハイブリッド分類器を比較し、外部コホート上での一般化性を評価する。
論文 参考訳(メタデータ) (2025-09-24T21:18:52Z) - Fantastic Pretraining Optimizers and Where to Find Them [59.56075036649332]
AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
論文 参考訳(メタデータ) (2025-09-02T07:43:22Z) - Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging [2.3507313809321233]
この体系的なレビューは、2020年から2025年にかけて発行された226の研究を分析し、結果予測のためにPETまたはSPECTイメージングに機械学習を適用した。
PETベースの研究は、一般的にSPECTを用いた場合よりも優れており、おそらくは空間分解能と感度が高いためである。
一般的な制限としては、階級不均衡の不十分な扱い、データ不足、人口の多様性の低さがあった。
論文 参考訳(メタデータ) (2025-07-21T21:03:12Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction [11.731590131260424]
CorBenchXは胸部X線レポートにおける自動エラー検出と修正のためのスイートである。
まず,26,326個の胸部X線誤差の大規模データセットを合成した。
オープンソースとクローズドなビジョン言語モデルの両方をベンチマークします。
論文 参考訳(メタデータ) (2025-05-17T15:39:39Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。