論文の概要: When +1% Is Not Enough: A Paired Bootstrap Protocol for Evaluating Small Improvements
- arxiv url: http://arxiv.org/abs/2511.19794v1
- Date: Mon, 24 Nov 2025 23:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.206839
- Title: When +1% Is Not Enough: A Paired Bootstrap Protocol for Evaluating Small Improvements
- Title(参考訳): 1%が不十分な場合:小さな改善を評価するためのペアリングブートストラッププロトコル
- Authors: Wenzhang Du,
- Abstract要約: 最近の機械学習論文では、ベンチマークの単一実行から1-2パーセントの改善が報告されている。
したがって、報告された+1-2%が実際のアルゴリズムの進歩とノイズを反映しているかどうかは不明である。
本稿では,ペア型マルチシードラン,バイアス補正・高速化(BCa)ブートストラップ信頼区間,およびデルタ単位のサインフリップ置換試験に基づくPCフレンドリーな評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent machine learning papers often report 1-2 percentage point improvements from a single run on a benchmark. These gains are highly sensitive to random seeds, data ordering, and implementation details, yet are rarely accompanied by uncertainty estimates or significance tests. It is therefore unclear when a reported +1-2% reflects a real algorithmic advance versus noise. We revisit this problem under realistic compute budgets, where only a few runs are affordable. We propose a simple, PC-friendly evaluation protocol based on paired multi-seed runs, bias-corrected and accelerated (BCa) bootstrap confidence intervals, and a sign-flip permutation test on per-seed deltas. The protocol is intentionally conservative and is meant as a guardrail against over-claiming. We instantiate it on CIFAR-10, CIFAR-10N, and AG News using synthetic no-improvement, small-gain, and medium-gain scenarios. Single runs and unpaired t-tests often suggest significant gains for 0.6-2.0 point improvements, especially on text. With only three seeds, our paired protocol never declares significance in these settings. We argue that such conservative evaluation is a safer default for small gains under tight budgets.
- Abstract(参考訳): 最近の機械学習論文では、ベンチマークの単一実行から1-2パーセントの改善が報告されている。
これらの利得は、ランダムな種、データの順序付け、実装の詳細に非常に敏感であるが、不確実な推定や重要なテストを伴うことは滅多にない。
したがって、報告された+1-2%が実際のアルゴリズムの進歩とノイズを反映しているかどうかは不明である。
我々は現実的な計算予算の下でこの問題を再考する。
そこで本研究では,ペア型マルチシードラン,バイアス補正・高速化(BCa)ブートストラップ信頼区間,およびデルタ単位のサインフリップ置換テストに基づくPCフレンドリーな簡易評価プロトコルを提案する。
プロトコルは故意に保守的であり、過大評価に対するガードレールとして意図されている。
我々は、CIFAR-10、CIFAR-10N、AG Newsで、合成非改良、小型ゲイン、中利得シナリオを用いてインスタンス化する。
単一実行と未ペアのt-testは、特にテキストにおいて、0.6-2.0ポイントの改善に対して大きな改善を示唆することが多い。
3つのシードで、この2つのプロトコルはこれらの設定において決して重要性を宣言しません。
このような保守的な評価は、厳格な予算の下で小さな利益のためにより安全なデフォルトであると我々は主張する。
関連論文リスト
- One Sample is Enough to Make Conformal Prediction Robust [53.78604391939934]
共形予測は, 1つのランダムな摂動入力に対して前方通過しても, ある程度の堅牢性が得られることを示す。
提案手法は,入力毎に多数のパス(例えば100回程度)を使用するSOTA法と比較して,平均セットサイズが小さいロバストな集合を返す。
論文 参考訳(メタデータ) (2025-06-19T19:14:25Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Verifiably Robust Conformal Prediction [1.391198481393699]
本稿では、ニューラルネットワーク検証手法を利用して、敵攻撃時のカバレッジ保証を回復する新しいフレームワークであるVRCP(Verifiably Robust Conformal Prediction)を紹介する。
私たちのメソッドは、回帰タスクだけでなく、$ell1$, $ell2$, $ellinfty$といった任意のノルムで束縛された摂動をサポートする最初の方法です。
いずれの場合も、VRCPは名目上の範囲を達成し、SotAよりもはるかに効率的で情報的な予測領域が得られる。
論文 参考訳(メタデータ) (2024-05-29T09:50:43Z) - Provably Robust Conformal Prediction with Improved Efficiency [29.70455766394585]
コンフォーマル予測は、保証されたカバレッジで不確実性セットを生成する強力なツールである。
逆の例は、不正なカバレッジ率の予測セットを構築するために共形メソッドを操作することができる。
本稿では,PTT(Post-Training Transformation)とRCT(Robust Conformal Training)という2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:49:01Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。