論文の概要: Using Spark Machine Learning Models to Perform Predictive Analysis on
Flight Ticket Pricing Data
- arxiv url: http://arxiv.org/abs/2310.07787v1
- Date: Wed, 11 Oct 2023 18:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 11:40:24.982263
- Title: Using Spark Machine Learning Models to Perform Predictive Analysis on
Flight Ticket Pricing Data
- Title(参考訳): スパーク機械学習モデルを用いたフライトチケット価格データの予測分析
- Authors: Philip Wong, Phue Thant, Pratiksha Yadav, Ruta Antaliya, Jongwook Woo
- Abstract要約: このプロジェクトの目的は、米国中のノンストップ便の航空券料金を予測するために、現実世界で利用できる最良のモデルを決定することだ。
ランダムフォレスト、グラディエントブーストツリー、決定木、ファクトリゼーションマシンの4つの回帰機械学習アルゴリズムが利用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses predictive performance and processes undertaken on
flight pricing data utilizing r2(r-square) and RMSE that leverages a large
dataset, originally from Expedia.com, consisting of approximately 20 million
records or 4.68 gigabytes. The project aims to determine the best models usable
in the real world to predict airline ticket fares for non-stop flights across
the US. Therefore, good generalization capability and optimized processing
times are important measures for the model.
We will discover key business insights utilizing feature importance and
discuss the process and tools used for our analysis. Four regression machine
learning algorithms were utilized: Random Forest, Gradient Boost Tree, Decision
Tree, and Factorization Machines utilizing Cross Validator and Training
Validator functions for assessing performance and generalization capability.
- Abstract(参考訳): 本稿では,約2000万レコードまたは4.68ギガバイトからなるExpedia.comの大規模データセットを利用したr2(r-square)とRMSEを用いたフライト価格データに基づく予測性能とプロセスについて論じる。
このプロジェクトの目的は、米国中のノンストップ便の航空券料金を予測するために、現実世界で利用できる最良のモデルを決定することだ。
したがって、モデルにとって優れた一般化能力と最適化された処理時間が重要な指標となる。
機能の重要性を活用した重要なビジネス洞察を発見し、分析に使用するプロセスとツールについて論じる。
ランダムフォレスト,勾配ブーストツリー,決定木,因子化マシンの4つの回帰機械学習アルゴリズムを用いて,クロスバリデータとトレーニングバリデータを用いて性能と一般化能力を評価する。
関連論文リスト
- AssistTaxi: A Comprehensive Dataset for Taxiway Analysis and Autonomous Operations [2.76101452577748]
AssistTaxiは、滑走路とタクシーウェイの分析のための画像のコレクションである新しいデータセットである。
AssistTaxiの重要性は、自動運転事業を前進させる可能性にある。
論文 参考訳(メタデータ) (2024-09-10T20:40:54Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Efficiency for Free: Ideal Data Are Transportable Representations [12.358393766570732]
最適化と一般化の観点から,データの効率性について検討する。
本稿では,効率的なデータの生成と活用を促進するRepresentation Learning Accelerator (algopt)を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:06:02Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Predicting the Skies: A Novel Model for Flight-Level Passenger Traffic
Forecasting [0.0]
本研究では,飛行レベルの旅客輸送を予測するための新しい多モード深層学習手法を提案する。
本モデルでは, フライト毎に, 過去の交通情報, 運賃情報, 季節特性を収集する。
従来のベンチマークと比較すると,平均二乗誤差はおよそ33%改善した。
論文 参考訳(メタデータ) (2024-01-07T06:51:26Z) - Advantages of Machine Learning in Bus Transport Analysis [0.0]
教師付き機械学習アルゴリズムを用いて,テヘランBRTバスシステムの周期性に寄与する要因を解析する。
所定時間帯の性能基準を満たすバス経路を予測できる正確なモデルを構築した。
論文 参考訳(メタデータ) (2023-10-16T13:02:43Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。