論文の概要: Pre-Registering the Detectable Effect: A Paired-MDE Budget for 4-bit Quantization Benchmarks, with a Pilot Audit
- arxiv url: http://arxiv.org/abs/2605.28873v1
- Date: Mon, 25 May 2026 07:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.941291
- Title: Pre-Registering the Detectable Effect: A Paired-MDE Budget for 4-bit Quantization Benchmarks, with a Pilot Audit
- Title(参考訳): 検出可能な効果の事前登録:4ビット量子化ベンチマークのためのペアドMDE予算とパイロット監査
- Authors: Zexin Zhuang, Yanhang Li, Zhichao Fan,
- Abstract要約: 古典的なペア化されたサンプルサイズ計算を量子化ベンチマークに適用する。
境界は「私の量子化の主張はどの程度信頼できるのか?」を1行の予算に転換する。
5行の事前登録テンプレートで境界を補完する。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is a planning-method note with an unpaired pilot audit. We adapt the classical paired-binary sample-size calculation (Miettinen, 1968) to quantization benchmarks, giving a conservative minimum detectable effect (MDE) bound $δ^{*} \le (z_{1-α/2}+z_{1-β})\sqrt{ρ_d/m}$ in the paired item count $m$ and the FP16-NF4 disagreement rate $ρ_d$. The bound turns "how reliable is my quantization claim?" into a one-line budget a benchmark designer can commit to before running. We illustrate the bound on four models and four benchmarks ($k=5$ splits of $n=100$), and add a parallel MMLU prompt-template study to put the bound's quantization-noise scale alongside the prompt-noise scale. Assuming $ρ_d=0.10$ (an unmeasured planning value), all observed NF4-FP16 deltas fall below the implied MDE, and most cross-split SDs lie within $\pm 1.5$ pp of the binomial reference $\sqrt{p(1-p)/n}$, so much of the variance reported as "benchmark unreliability" on $n=100$ subsamples is binomial sampling noise. The single borderline cell (OPT-WinoGrande, $|Δ|=3.2$ pp) is below the implied MDE at $ρ_d=0.10$ but above it at $ρ_d=0.05$, illustrating the planning trade-off the bound makes explicit. On MMLU, prompt-template ranges of 2-10 pp meet or exceed the largest observed quantization delta (3.2 pp), so a quantization audit that does not first fix the prompt template absorbs template variance into its noise floor. We complement the bound with a five-line pre-registration template.
- Abstract(参考訳): これは未完成のパイロット監査を伴う計画的なメモです。
古典的なペア付き双対サンプルサイズ計算(Miettinen, 1968)を量子化ベンチマークに適用し、ペアアイテム数$m$とFP16-NF4の不一致率$ρ_d$において、保存的最小検出可能効果(MDE)を有界な$δ^{*} \le (z_{1-α/2}+z_{1-β})\sqrt{ρ_d/m}$とする。
境界は "量子化のクレームはどの程度信頼性が高いか?" となり,ベンチマークデザイナが実行前にコミット可能な1行の予算に変わります。
4つのモデルと4つのベンチマーク($k=5$ splits of $n=100$)のバウンダリについて説明し、並列なMMLUプロンプトテンポレート研究を加えて、そのバウンダリの量子化-ノイズスケールをプロンプト-ノイズスケールに合わせる。
ρ_d=0.10$(未測定プランニング値)を仮定すると、NF4-FP16デルタはインプリートMDEより低く、ほとんどのクロススプリットSDは2項参照 $\sqrt{p(1-p)/n}$ の$\pm 1.5$ pp の範囲内にあるため、$n=100$サブサンプルの「ベンチマーク不確実性」として報告される分散は二項サンプリングノイズである。
単一境界線セル (OPT-WinoGrande, $|Δ|=3.2$ pp) は ρ_d=0.10$ で指示された MDE より下にあるが、その上、$ρ_d=0.05$ で、境界の計画的トレードオフを説明できる。
MMLUでは、2-10 ppのプロンプトテンプレート範囲が観測された最大の量子化デルタ(3.2 pp)を超えるか、あるいは満たされるため、プロンプトテンプレートを最初に固定しない量子化監査は、そのノイズフロアにテンプレート分散を吸収する。
5行の事前登録テンプレートで境界を補完する。
関連論文リスト
- Trade-off Functions for DP-SGD with Subsampling based on Random Shuffling: Tight Upper and Lower Bounds [7.787109481104569]
ランダムシャッフルに基づくサブサンプリングによるDP-SGDのトレードオフ関数の厳密な解析を導出する。
Berry-Esseenの定理によって導かれる我々の具体的な境界は、証明フレームワーク内の定数要素に密着している。
論文 参考訳(メタデータ) (2026-05-07T13:35:43Z) - SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection [0.0]
SpecKVは軽量適応型コントローラで、ドラフトモデル自体から抽出した信号を使って投機1歩あたり$を選択できる。
圧縮レジーム間の最適な$$シフトと、ドラフトモデルの信頼性とエントロピーが受容率の強い予測因子であることを実証する。
論文 参考訳(メタデータ) (2026-05-04T17:55:05Z) - Posterior Sampling by Combining Diffusion Models with Annealed Langevin Dynamics [6.987640034932562]
後方サンプリングは、塗装、脱臭、MRI再構成などのタスクのための正確で公正なフレームワークを提供する。
我々は、拡散モデルとランゲヴィン力学の変種を組み合わせることで、スコア誤差の$L4$バウンドだけで条件付きサンプリングを実現することを証明した。
論文 参考訳(メタデータ) (2025-10-30T10:17:27Z) - Entropic Risk Optimization in Discounted MDPs: Sample Complexity Bounds with a Generative Model [2.4145441422386464]
有限割引決定過程において、最適状態-作用値関数$Q*$と最適ポリシー$pi*$を学習する際のサンプル複雑度を解析する。
我々は、モデルに基づくリスクに敏感な$Q$-value-iteration (MB-RS-QVI) と呼ばれる単純なモデルベースアプローチを提案し、分析する。
論文 参考訳(メタデータ) (2025-05-30T22:27:57Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。