論文の概要: Closed-Form Beta Distribution Estimation from Sparse Statistics with Random Forest Implicit Regularization
- arxiv url: http://arxiv.org/abs/2507.23767v2
- Date: Fri, 07 Nov 2025 03:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.45767
- Title: Closed-Form Beta Distribution Estimation from Sparse Statistics with Random Forest Implicit Regularization
- Title(参考訳): ランダムフォレスト入射規則化によるスパース統計からの閉鎖型ベータ分布の推定
- Authors: Jonathan R. Landers,
- Abstract要約: この研究は3つの主要な貢献を通じてスパースデータとアンサンブル分類から分布回復を推し進める。
まず,限定統計量から大規模ベータ分布を再構成する閉形式推定器を提案する。
第2に,誤差境界の導出による分類精度と分布の近接性の関係を確立する。
第3に、ゼロ分散特徴が暗黙の正則化として作用し、中間ランク予測器の選択確率が増加することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work advances distribution recovery from sparse data and ensemble classification through three main contributions. First, we introduce a closed-form estimator that reconstructs scaled beta distributions from limited statistics (minimum, maximum, mean, and median) via composite quantile and moment matching. The recovered parameters $(\alpha,\beta)$, when used as features in Random Forest classifiers, improve pairwise classification on time-series snapshots, validating the fidelity of the recovered distributions. Second, we establish a link between classification accuracy and distributional closeness by deriving error bounds that constrain total variation distance and Jensen-Shannon divergence, the latter exhibiting quadratic convergence. Third, we show that zero-variance features act as an implicit regularizer, increasing selection probability for mid-ranked predictors and producing deeper, more varied trees. A SeatGeek pricing dataset serves as the primary application, illustrating distributional recovery and event-level classification while situating these methods within the structure and dynamics of the secondary ticket marketplace. The UCI handwritten digits dataset confirms the broader regularization effect. Overall, the study outlines a practical route from sparse distributional snapshots to closed-form estimation and improved ensemble accuracy, with reliability enhanced through implicit regularization.
- Abstract(参考訳): この研究は3つの主要な貢献を通じてスパースデータとアンサンブル分類から分布回復を推し進める。
まず、限定統計量(最小値、最大値、平均値、中央値)から、複合量子化とモーメントマッチングにより、スケールしたベータ分布を再構成する閉形式推定器を導入する。
回収されたパラメータ$(\alpha,\beta)$は、ランダムフォレスト分類器の機能として使用される場合、時系列スナップショットのペア分類を改善し、回収された分布の忠実さを検証する。
第2に、全変動距離を制約する誤差境界と、2次収束を示すJensen-Shannon分散を導出することにより、分類精度と分布の近接性の間にリンクを確立する。
第三に、ゼロ分散特徴が暗黙の正則化として機能し、中級予測木の選択確率を高め、より深く、より多様な木を生み出すことを示す。
SeatGeekの価格データセットは、分散リカバリとイベントレベルの分類を図りながら、これらメソッドをセカンダリチケットマーケットプレースの構造とダイナミクス内に配置する、主要なアプリケーションとして機能する。
UCI手書き桁データセットは、より広範な正規化効果を確認する。
本研究は,スパース分布スナップショットからクローズフォーム推定,アンサンブル精度の向上,および暗黙の正則化による信頼性向上への実践的経路を概説した。
関連論文リスト
- Measuring training variability from stochastic optimization using robust nonparametric testing [5.519968037738177]
本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新たな要約統計量である$alpha$-trimmingレベルを提案する。
仮説を$alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
モデル変数の測定に$alpha$-trimmingレベルを使用する方法を示し、パフォーマンス指標よりも表現力が高いことを実験的に実証する。
論文 参考訳(メタデータ) (2024-06-12T15:08:15Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees [11.841312820944774]
我々は、微分可能なモデルに対する潜在的なモデル変更に対する反ファクトの堅牢性を定量化するために、 $textitStability$ と呼ぶ尺度を提案します。
私たちの主な貢献は、十分高い値のtextitStability$の反ファクトが、高い確率でポテンシャルモデルが変化した後も有効であることを示すことです。
論文 参考訳(メタデータ) (2023-05-19T20:48:05Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions
with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。
本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文 参考訳(メタデータ) (2022-11-28T18:52:33Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Stochastic Optimization for Performative Prediction [31.876692592395777]
モデルパラメータを単に更新することと、新しいモデルをデプロイすることの違いについて検討する。
各更新後にモデルを厳格にデプロイし、再デプロイする前に数回の更新を行うための収束率を証明する。
彼らは、パフォーマンス効果の強さによって、どちらのアプローチも他方よりも優れる体制が存在することを説明している。
論文 参考訳(メタデータ) (2020-06-12T00:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。