論文の概要: Revisiting Randomization in Greedy Model Search
- arxiv url: http://arxiv.org/abs/2506.15643v1
- Date: Wed, 18 Jun 2025 17:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.755473
- Title: Revisiting Randomization in Greedy Model Search
- Title(参考訳): グリーディモデル探索におけるランダム化の再検討
- Authors: Xin Chen, Jason M. Klusowski, Yan Shuo Tan, Chang Yu,
- Abstract要約: 特徴サブサンプリングによってランダム化される欲求前方選択推定器のアンサンブルを提案し,解析する。
計算効率を大幅に向上させる動的プログラミングに基づく新しい実装を設計する。
ランダム化アンサンブルが縮小と類似しているという一般的な信念とは対照的に、トレーニングエラーと自由度を同時に低減できることが示される。
- 参考スコア(独自算出の注目度): 16.15551706774035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining randomized estimators in an ensemble, such as via random forests, has become a fundamental technique in modern data science, but can be computationally expensive. Furthermore, the mechanism by which this improves predictive performance is poorly understood. We address these issues in the context of sparse linear regression by proposing and analyzing an ensemble of greedy forward selection estimators that are randomized by feature subsampling -- at each iteration, the best feature is selected from within a random subset. We design a novel implementation based on dynamic programming that greatly improves its computational efficiency. Furthermore, we show via careful numerical experiments that our method can outperform popular methods such as lasso and elastic net across a wide range of settings. Next, contrary to prevailing belief that randomized ensembling is analogous to shrinkage, we show via numerical experiments that it can simultaneously reduce training error and degrees of freedom, thereby shifting the entire bias-variance trade-off curve of the base estimator. We prove this fact rigorously in the setting of orthogonal features, in which case, the ensemble estimator rescales the ordinary least squares coefficients with a two-parameter family of logistic weights, thereby enlarging the model search space. These results enhance our understanding of random forests and suggest that implicit regularization in general may have more complicated effects than explicit regularization.
- Abstract(参考訳): ランダムな森のようなアンサンブルにランダム化された推定器を組み合わせることは、現代のデータ科学の基本的な技術となっているが、計算に費用がかかる。
さらに,予測性能が向上するメカニズムもよく理解されていない。
特徴サブサンプリングによってランダム化されるグリーディ前方選択推定器のアンサンブルを提案,解析することにより,これらの問題を疎線形回帰の文脈で解決する。
計算効率を大幅に向上させる動的プログラミングに基づく新しい実装を設計する。
さらに,本手法はラッソや弾性ネットなどの一般的な手法よりも幅広い設定で優れることを示す。
次に,ランダム化アンサンブルは縮小に類似しているという一般的な信念とは対照的に,学習誤差と自由度を同時に低減し,基底推定器のバイアス分散トレードオフ曲線全体をシフトさせることができることを示す数値実験を行った。
この事実を直交的特徴の設定において厳密に証明し、この場合、アンサンブル推定器は、通常の最小二乗係数を2パラメータの対数重みの族で再スケールし、モデル探索空間を拡大する。
これらの結果は無作為林の理解を高め、一般に暗黙の正則化は明示的な正則化よりも複雑な効果を持つ可能性があることを示唆している。
関連論文リスト
- Improving Random Forests by Smoothing [13.20678906714433]
カーネルベースの平滑化機構を学習されたランダムフォレストや任意の定数予測関数に適用する。
結果として得られたモデルは、基礎となるランダム森林の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-05-11T05:39:08Z) - Minimum Volume Conformal Sets for Multivariate Regression [44.99833362998488]
等角予測は、有限サンプルの妥当性を持つ予測集合を構築するための原則化された枠組みを提供する。
本稿では,最小整合被覆集合を直接学習する新しい損失関数に基づく最適化駆動フレームワークを提案する。
提案手法は, 任意のノルム球によって定義された予測集合を最適化し, 単ノルムおよび多ノルムの定式化を含む。
論文 参考訳(メタデータ) (2025-03-24T18:54:22Z) - Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning [6.278498348219108]
まず、(有効)自由度という古典的な統計的概念を再解釈し、拡張することで、第一原理からモデルの複雑さを再考する。
我々は,概念的議論,理論,実験の混合を通じて,提案した複雑性尺度の有用性を実証する。
論文 参考訳(メタデータ) (2024-10-02T06:09:57Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Meta-Learning with Generalized Ridge Regression: High-dimensional Asymptotics, Optimality and Hyper-covariance Estimation [14.194212772887699]
本研究では,高次元ランダム効果線形モデルの枠組みにおけるメタラーニングについて考察する。
本研究では,データ次元がタスク毎のサンプル数に比例して大きくなる場合に,新しいテストタスクに対する予測リスクの正確な振る舞いを示す。
トレーニングタスクのデータに基づいて,逆回帰係数を推定する手法を提案し,解析する。
論文 参考訳(メタデータ) (2024-03-27T21:18:43Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Generalized Gumbel-Softmax Gradient Estimator for Various Discrete
Random Variables [16.643346012854156]
ノードの勾配を評価することは、深層生成モデリングコミュニティにおいて重要な研究課題の1つである。
本稿では,連続緩和を伴うGumbel-Softmax推定器の一般バージョンを提案する。
論文 参考訳(メタデータ) (2020-03-04T01:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。