論文の概要: Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation?
- arxiv url: http://arxiv.org/abs/2605.25561v1
- Date: Mon, 25 May 2026 08:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.464007
- Title: Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation?
- Title(参考訳): 半監督型3次元医用画像分割のモデルと結果に過信感はあるか?
- Authors: Jun Li, Ziwei Qin,
- Abstract要約: 半教師付き学習は、アノテーションのコストを削減する主要なパラダイムとなっている。
現在の進歩は2倍の過信問題によって曇っていると我々は主張する。
本稿では,二軸信頼性評価エンジン上に構築した三空間原理分割フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.120238673372104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning has become a dominant paradigm for reducing annotation costs. However, we argue that the current progress is clouded by a twofold overconfidence problem. Algorithmically, mainstream pseudo-labeling frameworks often conflate prediction confidence with uncertainty, leading to severe confirmation bias. Strategically, since multiple benchmark datasets lack dedicated validation sets, some studies use the test set for validation as well, leading to inflated performance estimates. Subsequent methods, compelled to employ the same strategy to surpass reported SOTA, trigger an arms race of overfitting. This raises concerns that the impressive numerical gains in the community may reflect overfitting rather than genuine progress. Thus, we propose a tri-space calibrated segmentation framework founded on a principled dual-axis reliability assessment engine. It explicitly decouples confidence from uncertainty and uses this signal to detect and correct confirmation bias across feature, probability, and image spaces in a collaborative manner. Across three benchmark datasets, TCSeg consistently delivers strong performance under existing evaluation protocols. More importantly, we advocate that the community report final-checkpoint results under multiple-run protocols, thereby establishing more rigorous benchmarks with a more realistic perspective. Code will be available: github.com/DirkLiii/TCSeg.
- Abstract(参考訳): 半教師付き学習は、アノテーションのコストを削減する主要なパラダイムとなっている。
しかし、現在の進歩は2倍の過信問題によって曇っていると論じる。
アルゴリズム的には、主流の擬似ラベルフレームワークは、しばしば予測の信頼性を不確実性に分割し、重大な確認バイアスを引き起こす。
戦略的には、複数のベンチマークデータセットには専用の検証セットがないため、いくつかの研究ではテストセットも検証に使用しており、結果としてパフォーマンスが膨らませられている。
その後の方法は、報告されたSOTAを超えるために同じ戦略を使わざるを得ず、過度に適合する軍備競争を引き起こした。
これにより、コミュニティの目覚ましい数値的な利益が、真の進歩よりも過度に適合していることを反映しているのではないか、という懸念が持ち上がる。
そこで本研究では,二軸信頼性評価エンジンを基本とした三空間キャリブレーション・セグメンテーション・フレームワークを提案する。
信頼と不確実性を明確に分離し、この信号を使って特徴、確率、画像空間を協調的に検出し、補正する。
TCSegは3つのベンチマークデータセットを通じて、既存の評価プロトコルの下で一貫して強力なパフォーマンスを提供する。
さらに重要なことは、コミュニティが複数実行プロトコルで最終チェックポイントの結果を報告し、より現実的な視点でより厳密なベンチマークを確立することを主張する。
コードは、github.com/DirkLiii/TCSeg.comで入手できる。
関連論文リスト
- Trust It or Not: Evidential Uncertainty for Feed-Forward 3D Reconstruction with Trust3R [28.889667509969488]
Trust3Rはフィードフォワード3D再構成のための軽量な明らかな不確実性フレームワークである。
Trust3Rは、常にリスクカバレッジとスパーシフィケーションを改善し、概して幾何学的精度を向上させる。
論文 参考訳(メタデータ) (2026-05-19T08:39:48Z) - SURE: Semi-dense Uncertainty-REfined Feature Matching [28.68008638977835]
SUREは、一致と信頼を共同で予測する半密度不確実性再定義マッチングフレームワークである。
我々のアプローチは、軽量な空間融合モジュールとともに、信頼に値する座標回帰のための新しい明らかな頭部を軌道に乗せる。
提案手法は精度と効率の両面で既存の最先端のセミセンスマッチングモデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-03-05T06:53:11Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Reliability-Adaptive Consistency Regularization for Weakly-Supervised
Point Cloud Segmentation [80.07161039753043]
極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するのが望ましい。
本稿では、弱教師付き学習において一般的に用いられる一貫性の正則化を、複数のデータ固有の拡張を伴うポイントクラウドに適用することを検討する。
疑似ラベルの信頼性を評価するために,予測信頼性とモデル不確実性を両立させる新しい信頼性適応整合ネットワーク(RAC-Net)を提案する。
論文 参考訳(メタデータ) (2023-03-09T10:41:57Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。