論文の概要: I Can't Believe TTA Is Not Better: When Test-Time Augmentation Hurts Medical Image Classification
- arxiv url: http://arxiv.org/abs/2604.09697v1
- Date: Mon, 06 Apr 2026 23:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.606432
- Title: I Can't Believe TTA Is Not Better: When Test-Time Augmentation Hurts Medical Image Classification
- Title(参考訳): テストタイムの強化で医療画像の分類が難しくなったら、TTAは良くない
- Authors: Daniel Nobrega Medeiros,
- Abstract要約: TTA(Test-time augmentation)は医用画像の分類精度を向上させるために広く考えられている。
本稿では,この仮定を3つのMedMNIST v2ベンチマークと4つのアーキテクチャで検証した。
我々の主な発見は、標準拡張パイプラインを持つTTAが、シングルパス推論と比較して常に精度を低下させることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time augmentation (TTA)--aggregating predictions over multiple augmented copies of a test input--is widely assumed to improve classification accuracy, particularly in medical imaging where it is routinely deployed in production systems and competition solutions. We present a systematic empirical study challenging this assumption across three MedMNIST v2 benchmarks and four architectures spanning three orders of magnitude in parameter count (21K to 11M). Our principal finding is that TTA with standard augmentation pipelines consistently degrades accuracy relative to single-pass inference, with drops as severe as 31.6 percentage points for ResNet-18 on pathology images. This degradation affects all architectures, including convolutional models, and worsens with more augmented views. The sole exception is ResNet-18 on dermatology images, which gains a modest +1.6%. We identify the distribution shift between augmented and training-time inputs--amplified by batch normalization statistics mismatch--as the primary mechanism. Our ablation studies show that augmentation strategy matters critically: intensity-only augmentations preserve more performance than geometric transforms, and including the original unaugmented image partially mitigates but does not eliminate the accuracy drop. These findings serve as a cautionary note for practitioners: TTA should not be applied as a default post-hoc improvement but must be validated on the specific model-dataset combination.
- Abstract(参考訳): TTA(Test-time augmentation)は、テスト入力の複数の追加コピーに対する予測を集約することで、特に実運用システムや競合ソリューションに定期的にデプロイされる医療画像において、分類精度を向上させることが広く想定されている。
本稿では,この仮定を3つのMedMNIST v2ベンチマークと3桁のパラメータ数(21Kから11M)にまたがる4つのアーキテクチャで検証した。
我々の主な発見は、標準的な拡張パイプラインを持つTTAは、単一パスの推論に対して常に精度を低下させ、病理画像上のResNet-18の31.6ポイントまで低下することです。
この劣化は、畳み込みモデルを含むすべてのアーキテクチャに影響を与え、より拡張されたビューで悪化する。
唯一の例外は、皮膚科学画像のResNet-18であり、わずかに+1.6%である。
バッチ正規化統計値のミスマッチによって増幅された拡張時間入力とトレーニング時間入力の分布シフトを主機構として同定する。
強度のみの増強は幾何変換よりも高い性能を保ち、元の未拡張画像を含むと部分的に軽減されるが、精度低下を排除しない。
TTAはデフォルトのポストホック改善として適用されるべきではなく、特定のモデルとデータセットの組み合わせで検証する必要がある。
関連論文リスト
- Robust by Design: A Continuous Monitoring and Data Integration Framework for Medical AI [0.779547724026871]
我々は、時間とともに堅牢なパフォーマンスを維持する自律的な継続的監視およびデータ統合フレームワークを提案する。
本手法では,モンテカルロのドロップアウトに基づく不確実性ゲーティングとマルチメトリック特徴解析を用いて,新しいデータの再トレーニングのタイミングを決定する。
マルチセンタデータセット上のResNet18アンサンブルによる実験では、このフレームワークはパフォーマンスの劣化を防ぐ。
論文 参考訳(メタデータ) (2026-04-10T06:22:00Z) - T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis [15.624549727053475]
既存のモデルマージ技術は、様々な医学的手段で一貫した利益をもたらすことができません。
サンプル単位の係数を計算するバックプロパゲーションフリーフレームワークであるTest-Time Task Adaptive merging (T3)を導入する。
ドメイン内、ベース・ツー・ノーベル、および4つのモダリティにまたがる汚職にまたがる厳密な相互評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-31T08:05:40Z) - Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift [2.292525568003776]
CLIPやSAMといった基礎モデルには、低ショット転送学習による高度なコンピュータビジョンと医療画像があり、限られたデータでCADDを支援する。
両課題に対処するためのFIPとCMPの融合である textbfStaRFM を提案する。
パッチワイド正規化により3Dに拡張されたFIPを適用し、埋め込みシフトを減らすとともに、ボクセルレベルの予測のために修正されたCMPをセグメンテーションの不確実性に適用する。
論文 参考訳(メタデータ) (2025-07-12T09:39:07Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Medical Image Segmentation with InTEnt: Integrated Entropy Weighting for
Single Image Test-Time Adaptation [6.964589353845092]
テスト時間適応(TTA)とは、テスト中にトレーニングされたモデルを新しいドメインに適応させることである。
そこで本研究では,単一の未ラベルテスト画像のみを用いて,医用画像分割モデルを適用することを提案する。
提案手法は, 平均2.9%のDice係数で, 3つの医用画像データセットにまたがる24のソース/ターゲット領域に分割して検証した。
論文 参考訳(メタデータ) (2024-02-14T22:26:07Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - COVID-19 Classification Using Staked Ensembles: A Comprehensive Analysis [0.0]
新型コロナウイルスは大量死亡率で増加し、WHOはパンデミックと宣言した。
効率的かつ迅速な診断が不可欠である。
逆転写ポリメラーゼ鎖反応(RTPCR)テストを行い、SARS-CoV-2の存在を検出する。
代わりに胸部CT(または胸部X線)を高速かつ正確な診断に用いることができる。
論文 参考訳(メタデータ) (2020-10-07T07:43:57Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。