論文の概要: Comparing hundreds of machine learning classifiers and discrete choice
models in predicting travel behavior: an empirical benchmark
- arxiv url: http://arxiv.org/abs/2102.01130v1
- Date: Mon, 1 Feb 2021 19:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 10:07:30.452142
- Title: Comparing hundreds of machine learning classifiers and discrete choice
models in predicting travel behavior: an empirical benchmark
- Title(参考訳): 旅行行動予測における数百の機械学習分類器と離散選択モデルの比較:実証的ベンチマーク
- Authors: Shenhao Wang, Baichuan Mo, Stephane Hess, Jinhua Zhao
- Abstract要約: 本研究では、数百の機械学習(ML)と離散選択モデル(DCM)を比較して、一般化可能な経験的ベンチマークを提供することを目的とする。
実験は4つの超次元にまたがって予測精度と計算コストを評価する。
ディープニューラルネットワークは予測性能が最も高いが、計算コストは比較的高い。
- 参考スコア(独自算出の注目度): 3.0969191504482247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have compared machine learning (ML) classifiers and discrete
choice models (DCMs) in predicting travel behavior, but the generalizability of
the findings is limited by the specifics of data, contexts, and authors'
expertise. This study seeks to provide a generalizable empirical benchmark by
comparing hundreds of ML and DCM classifiers in a highly structured manner. The
experiments evaluate both prediction accuracy and computational cost by
spanning four hyper-dimensions, including 105 ML and DCM classifiers from 12
model families, 3 datasets, 3 sample sizes, and 3 outputs. This experimental
design leads to an immense number of 6,970 experiments, which are corroborated
with a meta dataset of 136 experiment points from 35 previous studies. This
study is hitherto the most comprehensive and almost exhaustive comparison of
the classifiers for travel behavioral prediction. We found that the ensemble
methods and deep neural networks achieve the highest predictive performance,
but at a relatively high computational cost. Random forests are the most
computationally efficient, balancing between prediction and computation. While
discrete choice models offer accuracy with only 3-4 percentage points lower
than the top ML classifiers, they have much longer computational time and
become computationally impossible with large sample size, high input
dimensions, or simulation-based estimation. The relative ranking of the ML and
DCM classifiers is highly stable, while the absolute values of the prediction
accuracy and computational time have large variations. Overall, this paper
suggests using deep neural networks, model ensembles, and random forests as
baseline models for future travel behavior prediction. For choice modeling, the
DCM community should switch more attention from fitting models to improving
computational efficiency, so that the DCMs can be widely adopted in the big
data context.
- Abstract(参考訳): 研究者は、旅行行動を予測するために機械学習(ML)分類器と離散選択モデル(DCM)を比較してきたが、発見の一般化はデータ、文脈、著者の専門知識によって制限されている。
本研究は、高度に構造化された方法で数百のMLおよびDCM分類器を比較して、一般化可能な経験的ベンチマークを提供することを目的とする。
実験では,12のモデルファミリーから105のMLとDCMの分類器,3つのデータセット,3つのサンプルサイズ,3つのアウトプットを含む4つの超次元にまたがって予測精度と計算コストを評価した。
この実験設計は6,970の実験につながり、35の以前の研究から136の実験ポイントのメタデータセットと関連付けられている。
この研究は、旅行行動予測のための分類器の最も包括的でほぼ完全な比較です。
その結果,アンサンブル法とディープニューラルネットワークが最も高い予測性能が得られるが,計算コストは比較的高いことがわかった。
ランダムフォレストは最も計算効率が良く、予測と計算のバランスをとる。
離散選択モデルは、上位ML分類器よりもわずか3~4パーセント低い精度を提供するが、より長い計算時間を持ち、大きなサンプルサイズ、高い入力次元、シミュレーションベースの推定で計算不可能になる。
MLおよびDCM分類器の相対的なランキングは非常に安定しており、予測精度と計算時間の絶対値は大きな変動を有する。
本稿では, 深層ニューラルネットワーク, モデルアンサンブル, ランダム森林を, 将来の旅行行動予測のベースラインモデルとして用いることを提案する。
選択モデリングのために、DCMコミュニティは、ビッグデータのコンテキストでDCMを広く採用できるように、適合モデルから計算効率の改善にもっと注意を向けるべきです。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。
データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。
この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Activity Cliff Prediction: Dataset and Benchmark [20.41770222873952]
本稿ではまず,AC予測のための大規模データセットACNetを紹介する。
ACNetは400K以上のMMP(Matched Molecular Pairs)を190のターゲットに対してキュレートする。
本稿では、深いニューラルネットワークで符号化された分子表現の予測性能を交流予測のためにベンチマークするためのベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-15T09:19:07Z) - Approximate Gibbs Sampler for Efficient Inference of Hierarchical Bayesian Models for Grouped Count Data [0.0]
本研究は、推定精度を維持しつつ、HBPRMを効率的に学習するための近似ギブスサンプリング器(AGS)を開発した。
実データと合成データを用いた数値実験により,AGSの優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-28T21:00:55Z) - Performance and Interpretability Comparisons of Supervised Machine
Learning Algorithms: An Empirical Study [3.7881729884531805]
論文は発見に基づく方法で整理され、各セクションが一般的な結論を提供する。
全体として、XGBとFFNNは競争力があり、FFNNはスムーズなモデルでより良いパフォーマンスを示した。
RFは一般には良好に機能せず,文献で確認された。
論文 参考訳(メタデータ) (2022-04-27T12:04:33Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。