論文の概要: Improving the accuracy of freight mode choice models: A case study using
the 2017 CFS PUF data set and ensemble learning techniques
- arxiv url: http://arxiv.org/abs/2402.00654v1
- Date: Thu, 1 Feb 2024 15:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:02:57.641194
- Title: Improving the accuracy of freight mode choice models: A case study using
the 2017 CFS PUF data set and ensemble learning techniques
- Title(参考訳): 貨物モード選択モデルの精度向上:2017 CFS PUFデータセットとアンサンブル学習技術を用いた事例研究
- Authors: Diyi Liu, Hyeonsup Lim, Majbah Uddin, Yuandong Liu, Lee D. Han,
Ho-ling Hwang, Shih-Miao Chin
- Abstract要約: 本研究は,2017 Commodity Flow Survey Public Use File データセットを用いて,高性能貨物モード選択モデルの構築について検討する。
提案手法は外部情報を組み込まずに92%以上の精度を達成し、ランダムフォレストモデルに1万以上のサンプルを直接適用した場合に比べて19%以上向上した。
- 参考スコア(独自算出の注目度): 2.2484940061081296
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The US Census Bureau has collected two rounds of experimental data from the
Commodity Flow Survey, providing shipment-level characteristics of nationwide
commodity movements, published in 2012 (i.e., Public Use Microdata) and in 2017
(i.e., Public Use File). With this information, data-driven methods have become
increasingly valuable for understanding detailed patterns in freight logistics.
In this study, we used the 2017 Commodity Flow Survey Public Use File data set
to explore building a high-performance freight mode choice model, considering
three main improvements: (1) constructing local models for each separate
commodity/industry category; (2) extracting useful geographical features,
particularly the derived distance of each freight mode between
origin/destination zones; and (3) applying additional ensemble learning methods
such as stacking or voting to combine results from local and unified models for
improved performance. The proposed method achieved over 92% accuracy without
incorporating external information, an over 19% increase compared to directly
fitting Random Forests models over 10,000 samples. Furthermore, SHAP (Shapely
Additive Explanations) values were computed to explain the outputs and major
patterns obtained from the proposed model. The model framework could enhance
the performance and interpretability of existing freight mode choice models.
- Abstract(参考訳): 米国国勢調査局は、2012年(公用マイクロデータ)と2017年(公用ファイル)に発行された全国的な商品運動の出荷レベルの特性を提供する、コモディティフロー調査から2つの実験データを収集した。
この情報によって,貨物物流の詳細なパターンを理解する上で,データ駆動型手法の価値がますます高まっている。
In this study, we used the 2017 Commodity Flow Survey Public Use File data set to explore building a high-performance freight mode choice model, considering three main improvements: (1) constructing local models for each separate commodity/industry category; (2) extracting useful geographical features, particularly the derived distance of each freight mode between origin/destination zones; and (3) applying additional ensemble learning methods such as stacking or voting to combine results from local and unified models for improved performance.
提案手法は外部情報を組み込まずに92%以上の精度を達成し、ランダムフォレストモデルに1万以上のサンプルを適用した場合に比べて19%以上向上した。
さらに、SHAP(Shapely Additive Explanations)値を計算して、提案モデルから得られた出力と主要なパターンを説明した。
モデルフレームワークは既存の貨物モード選択モデルの性能と解釈可能性を高めることができる。
関連論文リスト
- No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - Modeling Freight Mode Choice Using Machine Learning Classifiers: A
Comparative Study Using the Commodity Flow Survey (CFS) Data [0.0]
本研究では,ニューラルネットワーク,ニューラルネットワーク,K-Nearest Neighbors,分類と回帰木,ランダムフォレスト,ブースティング,バッギングの8つの機械学習分類器について検討した。
その結果、ランダムフォレストが最も正確な予測を行い、その後にブースティングとバギングが続いた。
ばらつきの重要性については、出荷距離、出荷者の産業分類、出荷規模といった出荷特性が、貨物モードの選択決定において最も重要な要因である。
論文 参考訳(メタデータ) (2024-02-01T15:18:48Z) - Comparison of Transfer Learning based Additive Manufacturing Models via
A Case Study [3.759936323189418]
本稿では,金属AM製品に関するオープンソースデータセットに基づくケーススタディについて述べる。
5つのTL手法が決定木回帰(DTR)と人工知能ニューラルネットワーク(ANN)と統合され、6つのTLベースモデルが構築される。
これらの比較は応用TL法の性能を定量化するために用いられ、類似性、トレーニングデータサイズ、データ前処理の観点から議論される。
論文 参考訳(メタデータ) (2023-05-17T00:29:25Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:10:28Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。