論文の概要: Accounting for Underspecification in Statistical Claims of Model Superiority
- arxiv url: http://arxiv.org/abs/2511.02453v1
- Date: Tue, 04 Nov 2025 10:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.950994
- Title: Accounting for Underspecification in Statistical Claims of Model Superiority
- Title(参考訳): モデル優越性の統計的主張における不特定性の会計
- Authors: Thomas Sanchez, Pedro M. Gordaliza, Meritxell Bach Cuadra,
- Abstract要約: 優越性クレームを支持するために必要となる証拠は, 種子の変動性さえも著しく増大することを示した。
本研究は, 医用画像システムの評価において, トレーニング分散の明示的なモデル化の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.48720491749555833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning methods are increasingly applied in medical imaging, yet many reported improvements lack statistical robustness: recent works have highlighted that small but significant performance gains are highly likely to be false positives. However, these analyses do not take \emph{underspecification} into account -- the fact that models achieving similar validation scores may behave differently on unseen data due to random initialization or training dynamics. Here, we extend a recent statistical framework modeling false outperformance claims to include underspecification as an additional variance component. Our simulations demonstrate that even modest seed variability ($\sim1\%$) substantially increases the evidence required to support superiority claims. Our findings underscore the need for explicit modeling of training variance when validating medical imaging systems.
- Abstract(参考訳): 機械学習の手法は医療画像にますます適用されているが、多くの報告されている改善は統計的に堅牢性に欠けている。
しかしながら、これらの分析は \emph{underspecification} を考慮に入れていない -- 同様の検証スコアを達成するモデルは、ランダムな初期化やトレーニングのダイナミクスによって、目に見えないデータに対して異なる振る舞いをする可能性があるという事実。
ここでは,不特定性を付加的な分散成分として含める偽のアウトパフォーマンスクレームをモデル化する最近の統計フレームワークを拡張した。
シミュレーションにより, 優越性クレームを支持する上で必要となる証拠は, わずかに種子の変動性($\sim1\%$)でも著しく増加することが示された。
本研究は, 医用画像システムの評価において, トレーニング分散の明示的なモデル化の必要性を浮き彫りにした。
関連論文リスト
- Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - Prior Distribution and Model Confidence [0.0]
本稿では、再学習を必要とせずに、未知のデータに対するモデル予測の信頼性を理解するための枠組みを提案する。
本手法は,埋め込み空間におけるトレーニング分布からの距離に基づいて,低信頼度予測をフィルタリングする。
提案手法はモデルに依存しない一般化可能であり,コンピュータビジョン以外の応用の可能性がある。
論文 参考訳(メタデータ) (2025-09-05T20:17:26Z) - Detecting Model Misspecification in Amortized Bayesian Inference with Neural Networks: An Extended Investigation [9.950524371154394]
本研究では、教師なしの方法で訓練し、テスト時にモデルの誤特定を確実に検出できる新しい誤特定尺度を提案する。
提案手法は,不審な出力をユーザに警告し,予測が信頼できない場合に警告を発し,モデル設計者がより良いシミュレータを探索する際の指針となることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:30:16Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Evaluating the Fairness of Deep Learning Uncertainty Estimates in
Medical Image Analysis [3.5536769591744557]
深層学習(DL)モデルは多くの医療画像解析タスクで大きな成功を収めている。
しかし、結果として得られたモデルを実際の臨床状況に展開するには、異なるサブ集団間での堅牢性と公平性が必要である。
近年の研究では、人口統計学的サブグループにまたがるDLモデルに有意なバイアスが見られ、モデルに公平性が欠如していることが示されている。
論文 参考訳(メタデータ) (2023-03-06T16:01:30Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。