論文の概要: A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees
- arxiv url: http://arxiv.org/abs/2011.03375v1
- Date: Fri, 6 Nov 2020 14:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:33:43.584785
- Title: A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees
- Title(参考訳): 最適多変量決定木学習のためのスケーラブルMIP法
- Authors: Haoran Zhu, Pavankumar Murali, Dzung T. Phan, Lam M. Nguyen, Jayant R.
Kalagnanam
- Abstract要約: 1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
- 参考スコア(独自算出の注目度): 17.152864798265455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent publications report advances in training optimal decision
trees (ODT) using mixed-integer programs (MIP), due to algorithmic advances in
integer programming and a growing interest in addressing the inherent
suboptimality of heuristic approaches such as CART. In this paper, we propose a
novel MIP formulation, based on a 1-norm support vector machine model, to train
a multivariate ODT for classification problems. We provide cutting plane
techniques that tighten the linear relaxation of the MIP formulation, in order
to improve run times to reach optimality. Using 36 data-sets from the
University of California Irvine Machine Learning Repository, we demonstrate
that our formulation outperforms its counterparts in the literature by an
average of about 10% in terms of mean out-of-sample testing accuracy across the
data-sets. We provide a scalable framework to train multivariate ODT on large
data-sets by introducing a novel linear programming (LP) based data selection
method to choose a subset of the data for training. Our method is able to
routinely handle large data-sets with more than 7,000 sample points and
outperform heuristics methods and other MIP based techniques. We present
results on data-sets containing up to 245,000 samples. Existing MIP-based
methods do not scale well on training data-sets beyond 5,500 samples.
- Abstract(参考訳): 最近のいくつかの出版物は、整数プログラミングにおけるアルゴリズムの進歩と、CARTのようなヒューリスティックなアプローチの本質的な準最適性への関心の高まりにより、混合整数プログラム(MIP)を用いた最適決定木(ODT)の訓練の進歩を報告している。
本稿では, 1-norm サポートベクトルマシンモデルに基づく新しい MIP 定式化を提案し, 分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
カリフォルニア大学のIrvine Machine Learning Repositoryから得られた36のデータセットを用いて、私たちの定式化が、データセット全体の平均アウトオブサンプルテスト精度において、文学におけるその成果を約10%上回っていることを実証した。
我々は,新たな線形プログラミング(LP)に基づくデータ選択手法を導入して,大規模データセット上で多変量 ODT を訓練するためのスケーラブルなフレームワークを提供する。
提案手法は,7000点以上のサンプル点を持つ大規模データ集合を日常的に処理し,ヒューリスティックス法や他のMIPベースの手法より優れる。
我々は,最大245,000のサンプルを含むデータセットについて結果を示す。
既存のMIPベースの手法は、5500以上のサンプルのトレーニングデータセットではうまくスケールしない。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Machine Learning for Cutting Planes in Integer Programming: A Survey [21.567191691588643]
混合整数線形プログラミング(MILP)における切断平面(または切断)の選択のための機械学習(ML)技術に関する最近の研究について述べる。
MLは、データを使用してMILPインスタンスのソリューションを加速する有望なカットを特定することによって、カット選択プロセスを改善するための有望なアプローチを提供する。
本研究では,研究の成果を定量的に分析し,今後の研究への道筋を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:26:49Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。