論文の概要: Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2605.18329v1
- Date: Mon, 18 May 2026 12:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.611364
- Title: Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation
- Title(参考訳): Foldsにおける損失: クロスバリデーションが不確実性評価のための深いアンサンブルでない場合
- Authors: Kirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus,
- Abstract要約: 多くの研究はK-fold cross-validation (CV)を介してアンサンブルを形成するが、それらをディープアンサンブル(DE)と呼ぶ。
近年のセグメンテーションの不確実性調査を監査した結果,実装ミスマッチが一般的であることが判明した。
分散シフト下での校正,故障検出,曖昧性モデリング,ロバスト性に関する不確実性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.
- Abstract(参考訳): アンサンブル不一致は、医用画像セグメンテーションにおけるてんかん不確実性の指標として広く用いられている。
実際には、多くの研究がK-fold cross-validation (CV)を介してアンサンブルを形成するが、「ディープアンサンブル」 (DE) と呼ぶ。
CVメンバーは異なるデータサブセットで訓練されているため、その不一致はシード駆動の変動性とデータ露出効果を混在させ、不確実性がどのように解釈されるべきかを変える可能性がある。
近年のセグメンテーションの不確実性調査を監査した結果,実装ミスマッチが一般的であることが判明した。
次に、標準の5倍のCVアンサンブルと5員のDE(固定トレーニングセット、異なるランダムシード)を、3つのモードにまたがる3つのマルチレートセグメンテーションデータセットで同じ構成で比較する。
分散シフト下での校正,故障検出,曖昧性モデリング,ロバスト性に関する不確実性を評価する。
DEはキャリブレーションと故障検出を改善しながらセグメンテーションの精度を向上する一方、CVアンサンブルは研究データセットのラター間変動と強く相関することがある。
このように、アンサンブル構築は、信頼性指向型(例えば、選択的参照/障害検出)のためのDと、曖昧性のプロキシとしてのCVアンサンブルという、研究課題に合致するように選択されるべきである。
デフォルトパイプライン内でDEトレーニングを可能にする軽量なnnU-Net修正を提供する。
関連論文リスト
- U-SEG: Uncertainty in SEGmentation -- A systematic multi-variable exploration [0.8405672181165312]
我々は不確実性推定とセグメンテーションの交点におけるいくつかの未研究トピックについて深く検討する。
私たちは、データセット、バックボーン、下流タスクなど、多くの変数にわたる大規模な研究を実行するためのフレームワークを作成します。
汎視的セグメンテーションのより困難なタスクは、通常、パフォーマンスが悪くなりますが、データセットとバックボーン間の高いパフォーマンスのばらつきは、一般化が保証されていないことを示しています。
論文 参考訳(メタデータ) (2026-05-14T21:08:04Z) - FIVA: Federated Inverse Variance Averaging for Universal CT Segmentation with Uncertainty Estimation [4.544160712377809]
本研究は,多様な腹部CTデータセットにまたがる普遍的なセグメンテーションを実現するための,新しいフェデレーション学習手法を提案する。
提案手法はモデル重みから不確かさを伝搬することにより予測の不確かさを定量化する。
実験により, フェデレーションアグリゲーションと不確実性重み付け推論の品質向上に本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-08-08T11:34:01Z) - Trustworthy Few-Shot Transfer of Medical VLMs through Split Conformal Prediction [20.94974284175104]
医用視覚言語モデル(VLM)は、前例のない転送機能を示し、データ効率のよい画像分類に採用されている。
この研究は、そのようなモデルを転送する際の信頼性を保証するために、分割共形予測(SCP)フレームワークについて検討する。
そこで我々は,共形シナリオ上でのトランスダクティブ・スプリット・コンフォーマル適応(SCA-T)を提案する。
論文 参考訳(メタデータ) (2025-06-20T22:48:07Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - A Learning Based Hypothesis Test for Harmful Covariate Shift [3.1406146587437904]
リスクの高いドメインの機械学習システムは、アウト・オブ・ディストリビューションテストの例で予測をすべきでないことを特定する必要がある。
本研究では、トレーニングデータに同意し、テストデータに同意するように訓練された分類器のアンサンブル間の不一致を利用して、モデルがデプロイ設定から削除されるかどうかを判断する。
論文 参考訳(メタデータ) (2022-12-06T04:15:24Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Distribution-free binary classification: prediction sets, confidence
intervals and calibration [106.50279469344937]
分布自由条件における二項分類のための不確実性定量化(キャリブレーション、信頼区間、予測セット)の3つの概念について検討する。
固定幅と一様質量の両双対の双対確率に対する信頼区間を導出する。
我々の「三脚」定理の結果として、双有理確率に対するこれらの信頼区間は分布自由キャリブレーションに繋がる。
論文 参考訳(メタデータ) (2020-06-18T14:17:29Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。