論文の概要: An Approximation Method for Fitted Random Forests
- arxiv url: http://arxiv.org/abs/2207.02184v1
- Date: Tue, 5 Jul 2022 17:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:27:07.494627
- Title: An Approximation Method for Fitted Random Forests
- Title(参考訳): フィットしたランダム林の近似法
- Authors: Sai K Popuri
- Abstract要約: 本研究では,葉にデータポイントを割り当てたランダムフォレストモデルを用いて,各木を近似する手法について検討した。
具体的には,多項ロジスティック回帰の適合が予測品質を保ちながらサイズを減少させるかどうかを考察することから始める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random Forests (RF) is a popular machine learning method for classification
and regression problems. It involves a bagging application to decision tree
models. One of the primary advantages of the Random Forests model is the
reduction in the variance of the forecast. In large scale applications of the
model with millions of data points and hundreds of features, the size of the
fitted objects can get very large and reach the limits on the available space
in production setups, depending on the number and depth of the trees. This
could be especially challenging when trained models need to be downloaded
on-demand to small devices with limited memory. There is a need to approximate
the trained RF models to significantly reduce the model size without losing too
much of prediction accuracy. In this project we study methods that approximate
each fitted tree in the Random Forests model using the multinomial allocation
of the data points to the leafs. Specifically, we begin by studying whether
fitting a multinomial logistic regression (and subsequently, a generalized
additive model (GAM) extension) to the output of each tree helps reduce the
size while preserving the prediction quality.
- Abstract(参考訳): ランダムフォレスト(rf)は分類と回帰問題のための一般的な機械学習手法である。
決定木モデルに対するバッキングアプリケーションを含む。
ランダム森林モデルの主な利点の1つは、予測のばらつきの低減である。
何百万ものデータポイントと何百もの特徴を持つモデルの大規模アプリケーションでは、適合したオブジェクトのサイズが非常に大きくなり、木の数と深さによって、プロダクションのセットアップで利用可能なスペースの限界に達することができる。
トレーニングされたモデルを、メモリに制限のある小さなデバイスにオンデマンドでダウンロードする必要がある場合、これは特に困難である。
予測精度を過大に損なうことなく、トレーニングされたRFモデルを近似してモデルサイズを大幅に削減する必要がある。
本研究では,葉へのデータポイントの多項配置を用いたランダムフォレストモデルにおいて,各木を近似する手法を提案する。
具体的には、各木の出力に多項ロジスティック回帰(後に一般化加法モデル(GAM)拡張)を適合させることで、予測品質を保ちながら、サイズを小さくすることから始める。
関連論文リスト
- Forecasting with Hyper-Trees [50.72190208487953]
Hyper-Treesは時系列モデルのパラメータを学習するために設計されている。
対象とする時系列モデルのパラメータを特徴に関連付けることで、Hyper-Treesはパラメータ非定常性の問題にも対処する。
この新しいアプローチでは、木はまず入力特徴から情報表現を生成し、浅いネットワークはターゲットモデルパラメータにマップする。
論文 参考訳(メタデータ) (2024-05-13T15:22:15Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Machine Learning Approach and Extreme Value Theory to Correlated
Stochastic Time Series with Application to Tree Ring Data [0.0]
木輪の成長は, 建築や環境史の研究など, 様々な面で実装された。
本研究の目的は,ノッティンガムシャーで栽培されている9本の樹木の樹輪幅データを解析するために,MLアルゴリズムとエクストリーム値理論を用いることである。
論文 参考訳(メタデータ) (2023-01-27T01:44:43Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Probability Distribution on Full Rooted Trees [2.1506382989223782]
データ圧縮、画像処理、機械学習では、完全なルートツリーはランダム変数ではない。
これを解決する方法の1つは、全根木上の事前分布を仮定することである。
本稿では,全根樹群における確率分布を提案する。
論文 参考訳(メタデータ) (2021-09-27T06:51:35Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Model family selection for classification using Neural Decision Trees [4.286327408435937]
本稿では,タスクに必要な探索範囲を削減する手法を提案する。
その考え方は、厳格な決定境界を持つ特定のファミリー、参照モデル(RM)の訓練されたインスタンスから、どのくらいの費用を逸脱する必要があるかの定量化である。
論文 参考訳(メタデータ) (2020-06-20T01:27:01Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。