論文の概要: Holdout cross-validation for large non-Gaussian covariance matrix estimation using Weingarten calculus
- arxiv url: http://arxiv.org/abs/2509.13923v1
- Date: Wed, 17 Sep 2025 11:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.837391
- Title: Holdout cross-validation for large non-Gaussian covariance matrix estimation using Weingarten calculus
- Title(参考訳): Weingarten計算を用いた大規模非ガウス共分散行列推定のためのホールドアウトクロスバリデーション
- Authors: Lamia Lamrani, Benoît Collins, Jean-Philippe Bouchaud,
- Abstract要約: 単列車のホールドアウト法で期待されるフロベニウス誤差を導出し,テスト分割を行う。
雑音ベクトルのユークリッドノルムの高次モーメントは、最適分割近傍のホールドアウト誤差曲線を鋭くする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-validation is one of the most widely used methods for model selection and evaluation; its efficiency for large covariance matrix estimation appears robust in practice, but little is known about the theoretical behavior of its error. In this paper, we derive the expected Frobenius error of the holdout method, a particular cross-validation procedure that involves a single train and test split, for a generic rotationally invariant multiplicative noise model, therefore extending previous results to non-Gaussian data distributions. Our approach involves using the Weingarten calculus and the Ledoit-P\'ech\'e formula to derive the oracle eigenvalues in the high-dimensional limit. When the population covariance matrix follows an inverse Wishart distribution, we approximate the expected holdout error, first with a linear shrinkage, then with a quadratic shrinkage to approximate the oracle eigenvalues. Under the linear approximation, we find that the optimal train-test split ratio is proportional to the square root of the matrix dimension. Then we compute Monte Carlo simulations of the holdout error for different distributions of the norm of the noise, such as the Gaussian, Student, and Laplace distributions and observe that the quadratic approximation yields a substantial improvement, especially around the optimal train-test split ratio. We also observe that a higher fourth-order moment of the Euclidean norm of the noise vector sharpens the holdout error curve near the optimal split and lowers the ideal train-test ratio, making the choice of the train-test ratio more important when performing the holdout method.
- Abstract(参考訳): クロスバリデーションはモデル選択と評価において最も広く用いられている手法の1つであり、大きな共分散行列推定の効率は実際は頑健に見えるが、その誤差の理論的挙動についてはほとんど分かっていない。
本稿では,1本の列車とテスト分割を含むクロスバリデーション法であるホールドアウト法のフロベニウス誤差を,汎用的な回転不変な乗算雑音モデルに対して導出し,その結果を非ガウス的データ分布に拡張する。
我々のアプローチは、高次元極限におけるオラクル固有値を導出するために、ワインガルテン電卓とレドイ=プチエの公式を用いることである。
集団共分散行列が逆ウィッシュアート分布に従えば、予想されるホールドアウト誤差を線形縮退で近似し、次いで2次縮退でオラクル固有値を近似する。
線形近似では、最適列車-試験分割比は行列次元の平方根に比例する。
次に、ガウス分布、学生分布、ラプラス分布などの雑音のノルムの異なる分布に対するホールドアウト誤差のモンテカルロシミュレーションを計算し、2次近似が、特に最適列車-試験分割比の周囲において、実質的な改善をもたらすことを観察する。
また、ノイズベクトルのユークリッドノルムの高次モーメントは、最適分割近傍のホールドアウト誤差曲線を鋭くし、理想的なトレインテスト比を低くし、ホールドアウト法の実行時に列車テスト比を選択することがより重要であることも観察した。
関連論文リスト
- Learning a Gaussian Mixture for Sparsity Regularization in Inverse Problems [2.174919458782602]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Batches Stabilize the Minimum Norm Risk in High Dimensional Overparameterized Linear Regression [12.443289202402761]
最小ノルム過パラメータ線形回帰モデルのレンズによるバッチ分割の利点を示す。
最適なバッチサイズを特徴付け、ノイズレベルに逆比例することを示す。
また,Weiner係数と同等の係数によるバッチ最小ノルム推定器の縮小がさらに安定化し,全ての設定において2次リスクを低くすることを示した。
論文 参考訳(メタデータ) (2023-06-14T11:02:08Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Adaptive and Oblivious Randomized Subspace Methods for High-Dimensional
Optimization: Sharp Analysis and Lower Bounds [37.03247707259297]
2次統計が入力データを反映する相関ランダム行列をサンプリングすることにより、適切な適応部分空間を生成することができる。
ランダム化された近似の相対誤差は、データ行列のスペクトルの観点から厳密に特徴付けることができることを示した。
実験の結果,提案手法は様々な機械学習および最適化問題において,大幅な高速化を可能にすることがわかった。
論文 参考訳(メタデータ) (2020-12-13T13:02:31Z) - Spectral convergence of diffusion maps: improved error bounds and an
alternative normalisation [0.6091702876917281]
本稿では,分布がハイパートーラス上でサポートされているモデルの場合の誤差境界を改善するために,新しい手法を用いる。
我々は、スペクトルデータと演算子離散化のノルム収束の両方に対して、長年のポイントワイズ誤差境界と一致する。
また、シンクホーン重みに基づく拡散写像の別の正規化も導入する。
論文 参考訳(メタデータ) (2020-06-03T04:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。