論文の概要: Incomplete U-Statistics of Equireplicate Designs: Berry-Esseen Bound and Efficient Construction
- arxiv url: http://arxiv.org/abs/2510.20755v1
- Date: Thu, 23 Oct 2025 17:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.437089
- Title: Incomplete U-Statistics of Equireplicate Designs: Berry-Esseen Bound and Efficient Construction
- Title(参考訳): 等価設計の不完全U統計:ベリー・エッシー境界と効率的な構成
- Authors: Cesare Miglioli, Jordan Awan,
- Abstract要約: U統計学は、サンプル平均を一般化し、非パラメトリック統計の多くを下支えする推定器の基本的なクラスである。
本稿では,ハイパーグラフ理論と設計を基礎としたU統計学の新しい視点を示す。
- 参考スコア(独自算出の注目度): 4.123234066624863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: U-statistics are a fundamental class of estimators that generalize the sample mean and underpin much of nonparametric statistics. Although extensively studied in both statistics and probability, key challenges remain: their high computational cost - addressed partly through incomplete U-statistics - and their non-standard asymptotic behavior in the degenerate case, which typically requires resampling methods for hypothesis testing. This paper presents a novel perspective on U-statistics, grounded in hypergraph theory and combinatorial designs. Our approach bypasses the traditional Hoeffding decomposition, the main analytical tool in this literature but one highly sensitive to degeneracy. By characterizing the dependence structure of a U-statistic, we derive a Berry-Esseen bound that applies to all incomplete U-statistics of deterministic designs, yielding conditions under which Gaussian limiting distributions can be established even in the degenerate case and when the order diverges. We also introduce efficient algorithms to construct incomplete U-statistics of equireplicate designs, a subclass of deterministic designs that, in certain cases, achieve minimum variance. Finally, we apply our framework to kernel-based tests that use Maximum Mean Discrepancy (MMD) and Hilbert-Schmidt Independence Criterion. In a real data example with CIFAR-10, our permutation-free MMD test delivers substantial computational gains while retaining power and type I error control.
- Abstract(参考訳): U統計学は、サンプル平均を一般化し、非パラメトリック統計の多くを下支えする推定器の基本的なクラスである。
統計学と確率学の両方で広く研究されているが、重要な課題は、高い計算コスト(部分的には不完全なU統計学によって対処される)と退化の場合の非標準的な漸近的振る舞い(通常は仮説テストのための再サンプリング法を必要とする)である。
本稿では,超グラフ理論と組合せ設計を基礎としたU統計学の新しい視点を示す。
本論文の主な分析ツールである従来のHoeffding分解をバイパスするが, 退化には非常に敏感である。
U-統計量の依存構造を特徴付けることにより、決定論的設計の不完全なU-統計に適用されるベリー・エッシー境界を導出し、退化の場合や順序が分岐する場合においてもガウス極限分布が成立する条件を導出する。
また、同値な設計の不完全なU-統計(決定論的設計のサブクラス)を構築するための効率的なアルゴリズムを導入する。
最後に,最大平均離散性(MMD)とヒルベルト・シュミット独立基準を用いたカーネルベースのテストに適用する。
CIFAR-10による実データ例では、置換のないMDDテストは、パワーとI型エラー制御を維持しながら、かなりの計算ゲインを提供する。
関連論文リスト
- A Unified Framework for Inference with General Missingness Patterns and Machine Learning Imputation [12.817707155207817]
本稿では,一般的なZ推定問題に対して有効な統計的推論フレームワークを提供する新しい手法を提案する。
提案した推定器の正規性の理論的保証と重み付き完全ケース解析に対する効率優位性を提供する。
論文 参考訳(メタデータ) (2025-08-21T01:59:59Z) - CLT and Edgeworth Expansion for m-out-of-n Bootstrap Estimators of The Studentized Median [4.174296652683762]
m-out-of-nブートストラップはmサブサンプルをnサイズの元のサンプルから置き換えることなく繰り返し描画することで統計量の分布を近似する。
エコノメトリ、バイオ統計学、機械学習にまたがる幅広い適用性にもかかわらず、ブートストラップの音質に対する厳密なパラメータなし保証はいまだに解明されていない。
本稿では,n 個のデータセットの m-of-n 再サンプリングから得られたサンプル定量値の推定器を解析することにより,そのような保証を確立する。
論文 参考訳(メタデータ) (2025-05-16T22:14:49Z) - High-dimensional logistic regression with missing data: Imputation, regularization, and universality [7.167672851569787]
我々は高次元リッジ規則化ロジスティック回帰について検討する。
予測誤差と推定誤差の両方を正確に評価する。
論文 参考訳(メタデータ) (2024-10-01T21:41:21Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - A High-dimensional Convergence Theorem for U-statistics with
Applications to Kernel-based Testing [3.469038201881982]
次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。
我々はこの理論を、高次元性能の研究が困難である2つのカーネルベースの分散テスト MMD と KSD に適用した。
論文 参考訳(メタデータ) (2023-02-11T12:49:46Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。