論文の概要、ライセンス

# (参考訳) 外乱除去と外乱関節最適化を併用した2レベル機械学習フレームワークを用いたインシデント時間予測 [全文訳有]

Incident duration prediction using a bi-level machine learning framework with outlier removal and intra-extra joint optimisation ( http://arxiv.org/abs/2205.05197v1 )

ライセンス: CC BY-SA 4.0
Artur Grigorev, Adriana-Simona Mihaita, Seunghyeon Lee, Fang Chen(参考訳) イベントの確率的性質から、トラフィックインシデントの持続時間を予測することは難しい課題である。 事故がいつまで続くか正確に予測する能力は、ルート選択におけるエンドユーザーと、非リカレントトラフィックの混雑に対処するトラフィック操作マネージャの両方に大きな利益をもたらす。 本稿では,オーストラリア,オーストラリア,サン・フランシコの幹線道路と高速道路で収集された3つの不均一なデータセットのインシデント継続時間を予測するために,アウトリアー除去とエクストラ共同最適化を併用した,新たな2レベル機械学習フレームワークを提案する。 我々は,二進法と多進法を比較しながら,クラスバランスと予測性能の両方を目標とし,短期と長期の交通事故発生期間の最適しきい値を求める。 第二に、インシデント持続時間予測をより微細にするために、データセットの複数の回帰シナリオに対してテストされた複数のベースラインMLモデルを拡張した、新しいエクストラ共同最適化アルゴリズム(IEO-ML)を提案する。 最終結果は次のとおりである。 a) 40~45分は,短期的又は長期的インシデントを特定し,これらのインシデントを別々にモデル化すべき最善のスプリットしきい値である。 b)提案したIEO-MLアプローチは,精度の高いインシデント期間予測のための大きな可能性を示す全ケースの6,6\%で,ベースラインMLモデルよりも有意に優れていた。 最後に、特徴量を評価し、その時間、場所、インシデントタイプ、インシデント報告ソース、天気を、インシデントがどれくらい続くかに影響する重要な要素のトップ10のうちの1つとして示す。

Predicting the duration of traffic incidents is a challenging task due to the stochastic nature of events. The ability to accurately predict how long accidents will last can provide significant benefits to both end-users in their route choice and traffic operation managers in handling of non-recurrent traffic congestion. This paper presents a novel bi-level machine learning framework enhanced with outlier removal and intra-extra joint optimisation for predicting the incident duration on three heterogeneous data sets collected for both arterial roads and motorways from Sydney, Australia and San-Francisco, U.S.A. Firstly, we use incident data logs to develop a binary classification prediction approach, which allows us to classify traffic incidents as short-term or long-term. We find the optimal threshold between short-term versus long-term traffic incident duration, targeting both class balance and prediction performance while also comparing the binary versus multi-class classification approaches. Secondly, for more granularity of the incident duration prediction to the minute level, we propose a new Intra-Extra Joint Optimisation algorithm (IEO-ML) which extends multiple baseline ML models tested against several regression scenarios across the data sets. Final results indicate that: a) 40-45 min is the best split threshold for identifying short versus long-term incidents and that these incidents should be modelled separately, b) our proposed IEO-ML approach significantly outperforms baseline ML models in $66\%$ of all cases showcasing its great potential for accurate incident duration prediction. Lastly, we evaluate the feature importance and show that time, location, incident type, incident reporting source and weather at among the top 10 critical factors which influence how long incidents will last.
公開日: Tue, 10 May 2022 22:40:05 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] G L . s c [ ] G L。 sc [ 0.47
1 v 7 9 1 5 0 1 v 7 9 1 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Incident duration prediction using a bi-level machine learning framework with outlier removal and intra-extra joint optimisation Artur Grigoreva,ࢩ,1, Adriana-Simona Mihaitaa, Seunghyeon Leea and Fang Chena 外乱除去と外乱関節最適化を併用した2段階機械学習フレームワークを用いた入射時間予測 : アドリアナ・シモナ・ミハイタア, スンヒョン・リーア, ファン・チェナ
訳抜け防止モード: 外乱除去型バイレベル機械学習フレームワークを用いたインシデント時間予測 そして、追加の関節最適化Artur Grigoreva, ., 1, Adriana - Simona Mihaitaa Seunghyeon Leea と Fang Chena
0.78
aUniversity of Technology Sydney, 61 Broadway Str, Sydney, Australia ARTICLE INFO ABSTRACT Predicting the duration of traffic incidents is a challenging task due to the stochastic nature of Keywords: incident duration prediction events. aUniversity of Technology Sydney, 61 Broadway Str, Sydney, Australia ARTICLE INFO ABSTRACT Predicting the duration of traffic incidents is a challenge task because the stochastic nature of Keywords: incident duration prediction events。
訳抜け防止モード: auniversity of technology sydney, 61 broadway str, sydney, australia article info abstract (英語) 交通事故発生期間の予測 キーワードの確率的性質による課題 : インシデント持続時間予測イベント
0.66
The ability to accurately predict how long accidents will last can provide significant benefits to both end-users in their route choice and traffic operation managers in handling of arterial road versus motorways incinon-recurrent traffic congestion. 事故がいつまで続くかを正確に予測できる能力は、ルート選択におけるエンドユーザと、動脈交通と高速道路の不連続交通の処理における交通運用マネージャの両方に大きなメリットをもたらす。 0.72
This paper presents a novel bi-level machine learning framedent management classification work enhanced with outlier removal and intra-extra joint optimisation for predicting the incident regression duration on three heterogeneous data sets collected for both arterial roads and motorways from machine learning Sydney, Australia and San-Francisco, U.S.A. Firstly, we use incident data logs to develop a binary classification prediction approach, which allows us to classify traffic incidents as short-term extreme-boosted decision-trees or long-term. This paper presents a novel bi-level machine learning framedent management classification work enhanced with outlier removal and intra-extra joint optimisation for predicting the incident regression duration on three heterogeneous data sets collected for both arterial roads and motorways from machine learning Sydney, Australia and San-Francisco, U.S.A. Firstly, we use incident data logs to develop a binary classification prediction approach, which allows us to classify traffic incidents as short-term extreme-boosted decision-trees or long-term.
訳抜け防止モード: 本稿では, シドニー, オーストラリア, サンフランシスコから収集した動脈路および高速道路の3つの不均一なデータに対して, イントラジョイント回帰時間を予測するために, アウターリアー除去とイントラジョイント最適化により強化された新しいバイレベル機械学習フレームデント管理作業を提案する。 まず、インシデントデータログを用いてバイナリ分類予測手法を開発する。 これにより、トラフィックのインシデントを、短期間 - 極端な - 決定の促進 - 木や長い - - に分類することができます。
0.62
We find the optimal threshold between short-term versus long-term traffic incident light gradient boosting modelling intra-extra joint optimisation duration, targeting both class balance and prediction performance while also comparing the binary versus multi-class classification approaches. 我々は,短期的および長期的トラフィックインシデント光勾配強調モデルを用いた,クラスバランスと予測性能の両方を目標とし,二進法と多進法の比較を行った。 0.77
Secondly, for more granularity of the incident duration prediction to the minute level, we propose a new Intra-Extra Joint Optimisation algorithm (IEO-ML) which extends multiple baseline ML models tested against several regression scenarios across the data sets. 第二に、インシデント持続時間予測をより微細にするために、データセットの複数の回帰シナリオに対してテストされた複数のベースラインMLモデルを拡張した、新しいエクストラ共同最適化アルゴリズム(IEO-ML)を提案する。 0.76
Final results indicate that: 最終結果は次のとおりである。 0.61
a) 40-45 min is the best split threshold for identifying short versus long-term incidents and that these incidents should be modelled separately, a) 40~45分は,短期的又は長期的インシデントを特定し,これらのインシデントを別々にモデル化すべき最善のスプリットしきい値である。 0.61
b) our proposed IEO-ML approach significantly outperforms baseline ML models in 66% of all cases showcasing its great potential for accurate incident duration prediction. b)提案したIEO-MLアプローチは,全症例の66%でベースラインMLモデルよりも有意に優れており,正確なインシデント期間予測の可能性が示された。 0.65
Lastly, we evaluate the feature importance and show that time, location, incident type, incident reporting source and weather at among the top 10 critical factors which influence how long incidents will last. 最後に、特徴量を評価し、その時間、場所、インシデントタイプ、インシデント報告ソース、天気を、インシデントがどれくらい続くかに影響する重要な要素のトップ10のうちの1つとして示す。 0.51
Note This document represents a pre-print version of the paper (before peer-review, version from 29 Jun 2021) submitted to the journal ”Transportation Research Part C: Emerging Technologies”. なお、この文書は、同誌に提出された前版(2021年7月29日版)「Transportation Research Part C: Emerging Technologies」に記載されている。 0.76
During the peer-review the paper has been significantly extended (from 26 to 35 pages) and accepted for publication on 6 May 2022. 査読期間中、論文は26ページから35ページまで大幅に拡張され、2022年5月6日に出版された。 0.66
1. INTRODUCTION 1.1. 1. 導入 1.1。 0.64
Context Traffic congestion is a significant concern for many cities around the world. コンテクスト交通渋滞は、世界中の多くの都市にとって重要な懸念事項である。 0.61
Congestion arises due to various factors,includinginc reasedpopulation,wor kforceconcentrationi ncentralareas,orthel ackofefficientpublictransport modes. 混雑は、increasedpopulation、workforceconcentrati onincentralareas、orthelackof efficientpublictrans port modeを含む様々な要因によって生じる。 0.40
Two forms of congestion are typically predominant: 概して2種類の混雑が主流である。 0.53
a) recurrent traffic congestion during peak hours when traffic demand exceeds the road capacity, and a) 交通需要が道路容量を超えるピーク時の繰り返し交通渋滞 0.62
b) non-recurrent traffic congestion caused by unplanned events such as car accidents, breakdowns, weather, public manifestations etc. ロ 自動車事故、故障、天候、公募等の予定外のイベントによる不定期の交通渋滞
訳抜け防止モード: b)自動車事故等の予定外のイベントによる非頻繁な交通渋滞 崩壊、天候、公的な発表などです。
0.73
Previous studies have shown that almost 60% of traffic congestion is due to non-recurrent incidents with a stochastic behaviour in space and time [36]. 過去の研究では、交通渋滞の約60%は、時間と空間における確率的行動を伴う非再帰的なインシデントによるものである[36]。 0.64
In Australia, the number of road deaths per year was reduced by 70% since the 1970s. オーストラリアでは、1970年代以降、道路交通事故の死者数は70%減少した。 0.84
However, the annual economic cost of road crashes was estimated at $27 billion per annum in 2017 [14]. しかし、2017年の道路事故の年間経済コストは1アンナム当たり270億ドルと見積もられた[14]。 0.63
Traffic Incident Management Systems (TIMS) collect data on traffic incidents, including information on different incident duration factors. 交通インシデント管理システム(TIMS)は、異なるインシデント時間要素に関する情報を含む交通インシデントに関するデータを収集する。 0.73
Accurately predicting the total duration shortly after an incident took place could save operational costs and end-user time (through affecting the route planning). インシデント発生直後の合計期間を正確に予測することは、(ルート計画に影響を与えることによって)運用コストとエンドユーザー時間を削減できる。
訳抜け防止モード: インシデント発生直後の総継続時間を正確に予測する 運用コストと終了 - ユーザ時間(ルート計画に影響を与えることによる)。
0.78
Moreover, the clearance time of accidents is highly related to the ongoing traffic congestion and さらに、事故のクリアランスタイムは、進行中の交通渋滞と密接に関連している。 0.67
ࢩCorresponding author Artur.Grigorev@stude nt.uts.edu.au (A. Grigorev) www.fmlab.org (A. Grigorev) ※対応作家 Artur.Grigorev@stude nt.uts.edu.au (A. Grigorev) www.fmlab.org (A. Grigorev) 0.38
ORCID(s): orcid (複数形 orcids) 0.53
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 1 of 27 27頁1頁。 0.69
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
several external factors with different weights of importance. 異なる重みを持ついくつかの外部要因。 0.74
Therefore, it is essential to estimate the incident factor importance to improve the accuracy of predictions. したがって、予測精度を向上させるために、事故要因を推定することが不可欠である。
訳抜け防止モード: そのため、必須である。 予測の精度を向上させるために 重要要因を推定します
0.78
Most prior studies related to this topic concentrated on testing different machine learning models on specific road types like freeways or highways and focused primarily on different phases of the incident duration such as clearance time, recovery time, and the total incident duration [26]. このトピックに関連するほとんどの先行研究は、高速道路や高速道路のような特定の道路タイプで異なる機械学習モデルをテストすることに集中しており、主にクリアランス時間、回復時間、総インシデント期間といったインシデント期間の異なるフェーズに焦点を当てている [26]。
訳抜け防止モード: この話題に関するほとんどの先行研究は 高速道路や高速道路などの特定の道路タイプで異なる機械学習モデルをテストする 主にクリアランス時間や回復時間といったインシデント期間の異なるフェーズに注目しています。 全体のインシデント期間[26]。
0.82
There is currently a lack of an advanced approach that can be applied on all road types, for all accident types and across various countries with different driving behaviour. 現在、すべての事故タイプと異なる運転行動を持つさまざまな国で、すべての道路タイプに適用可能な先進的なアプローチが欠如している。 0.79
1.2. Challenges and contribution The accuracy of predicting the incident duration is often determined more by the modelling methodology, the feature construction, and the result interpretation rather than by the model in use. 1.2. 課題と貢献 インシデント継続時間を予測する精度は、しばしば、モデリング方法論、機能構築、そして、使用中のモデルではなく結果解釈によって決定される。 0.54
In this work, we address several open questions or challenges concerning the prediction of the traffic incident duration. 本稿では,トラヒック発生時間の予測に関するいくつかの疑問や課題について述べる。 0.61
The first challenge is to develop a universal bi-level framework applicable to different incident data sets reported onvariousroadnetwork layouts. 最初の課題は、onvariousroadnetwork layoutsを報告した異なるインシデントデータセットに適用可能な普遍的なbiレベルフレームワークを開発することである。
訳抜け防止モード: 最初の挑戦は onvariousroadnetwork layoutsを報告した異なるインシデントデータセットに適用可能なユニバーサルbiレベルフレームワークを開発する。
0.66
Themajorityofpriorwo rkshadstudiedthepred ictionofincidentdura tiononspecific types of roads (freeways or motorways) [44]-[10]-[17]-[45], where the data accuracy is higher than on arterial roads; as of 2018, very few applied the prediction strategies on normal arterial roads due to the high modelling complexity and a location mismatching; the majority of traffic incident duration analysis researches focus only on one type of road network (freeways, highways, etc); this is revealed by a recent state-of-the-art papers published in [26] which emphasises the difficulty of solving this problem for arterial roads and the lack of studies in this field. Themajorityofpriorwo rkshadstudiedthepred ictionofincidentdura tiononspecific types of roads (freeways or motorways) [44]-[10]-[17]-[45], where the data accuracy is higher than on arterial roads; as of 2018, very few applied the prediction strategies on normal arterial roads due to the high modelling complexity and a location mismatching; the majority of traffic incident duration analysis researches focus only on one type of road network (freeways, highways, etc); this is revealed by a recent state-of-the-art papers published in [26] which emphasises the difficulty of solving this problem for arterial roads and the lack of studies in this field.
訳抜け防止モード: the majorityofpriorworks hadstudiedthepredict ionofincidentduratio nonspecific types of road (freeways or motorways ) [ 44]-[10]-[17]-[45 ] 幹線道路よりもデータの正確さが ; 2018年現在,交通インシデント継続時間解析研究のほとんどが1種類の道路網(高速道路,高速道路)にのみ焦点をあてている。 高速道路など) ; これは、[26 ]で発行された、最近の状態 - of - the - art papers によって明らかにされる。 動脈道路におけるこの問題の解決の難しさと、この分野における研究の欠如を強調する。
0.70
Our study proposes a framework capable of predicting the incident duration regardless of the road network or its complexity. 本研究は,道路網やその複雑さに関わらず入射継続時間を予測できる枠組みを提案する。 0.72
Secondly, the majority of studies in the literature have concentrated on applying state-of-the-art machine learning models mostly for classifying the incident severity [35] or their duration[26]. 第二に、文献のほとんどの研究は、主にインシデント重大度[35]またはその持続時間[26]を分類するために最先端の機械学習モデルを適用することに集中している。 0.71
However, very few have treated the problem of outliers or imbalanced data classes. しかし、異常値や不均衡データクラスの問題を扱うケースはほとんどない。 0.71
Our study addresses both of these issues by proposing a varying threshold procedure that can facilitate binary duration classification threshold selection by considering both class balance and model performance. 本研究は,クラスバランスとモデル性能の両方を考慮して,バイナリ持続時間分類のしきい値選択を容易にする可変しきい値手順を提案することで,これらの問題を両立する。 0.68
We also test multi-class classification on data sets split into three equally-sized parts according to incident duration: short, medium or long term. また,インシデント期間に応じて等大の3つのデータセット(短期,中期,長期)で複数クラスを分類するテストを行った。 0.67
Previous researches were selecting incident duration thresholds by simple reasoning (e g choosing mean, median, percentiles, etc) [22]-[46]-[25]-[24]. これまでの研究は、単純な推論(平均、中央値、パーセンタイルなど)[22]-[46]-[25]-[24]によってインシデント期間のしきい値を選択することであった。 0.70
We, on the contrary, test multiple different thresholds for three different data sets. 反対に、3つの異なるデータセットに対して複数の異なるしきい値をテストする。 0.77
Furthermore we propose our own optimisation approach which we denote intra-extra joint optimisation (IEO) together with an outlier removal procedure (ORM) and advanced machine learning modelling. さらに,外部共同最適化 (IEO) を,外乱除去手順 (ORM) と高度な機械学習モデリングとともに表現する独自の最適化手法を提案する。 0.84
Thirdly, we further solving the incident duration regression problem and also perform different regression scenarios to test the extrapolation performance of ML models on various incident data sets. 第3に、インシデント期間の回帰問題を更に解決し、さまざまなインシデントデータセット上でMLモデルの補間性能をテストするために異なる回帰シナリオを実行する。 0.72
We utilise thresholds selected during the classification threshold evaluation procedure to analyse the extrapolation performance by training ML modelsandmakingpredi ctionsonseveraldurat ionsubsets. 分類しきい値評価法で選択されたしきい値を用いて、MLモデルと製造予測を訓練し、外挿性能を解析する。 0.56
ItallowsustofindthebestMLmodelandt hebestextrapolation approach for regression problem on each duration subset (e g short-term incidents) of each data set. itallowsustofindtheb estmlmodel andthebestextrapolat ion approach for regression problem on each duration subset (例えば、各データセットの短期インシデント)。 0.79
For the regression problem, we also detect the most influential factors that affect the incident duration that traffic centres need to prioritise in order to predict incident duration with higher accuracy. また, 回帰問題においては, 交通センターが優先すべきインシデント時間に影響を与える最も影響の大きい要因を検出し, 高い精度でインシデント時間を予測する。 0.80
The end goal is to improve the extrapolation ability of machine learning models on the task of incident duration prediction and find the best modelling approaches for short-term and long-term incidents. 最終目標は、インシデント期間予測タスクにおける機械学習モデルの外挿能力を改善し、短期および長期のインシデントに対して最適なモデリングアプローチを見つけることである。 0.84
Lastly, the majority of studies are primarily focusing on choosing a single winning algorithm or approach that works for a specific case study. 最後に、ほとんどの研究は、主に特定のケーススタディに役立つ1つの勝利アルゴリズムまたはアプローチの選択に焦点を当てています。 0.76
Unfortunately, we show that the performance of ML models is highly affected by the data set and the chosen methodology: data quality, the available features, and the additional parameter tuning and optimisation techniques applied in this work. 残念ながら、mlモデルのパフォーマンスは、データセットと選択した方法論、すなわちデータ品質、利用可能な機能、および本研究で適用される追加のパラメータチューニングと最適化技術によって非常に影響を受ける。 0.71
We try to develop the universal framework for traffic incident duration prediction applicable to different traffic incident data sets. 我々は,異なるトラヒックインシデントデータセットに適用可能な,トラヒックインシデント継続時間予測のためのユニバーサルフレームワークの開発を試みる。 0.70
We choose and adapt the best modelling approaches to each data set and show how this can affect the accuracy and performance of the models. 各データセットに最適なモデリングアプローチを選択して適用し、これがモデルの正確性とパフォーマンスにどのように影響するかを示します。
訳抜け防止モード: 私たちは各データセットに最適なモデリングアプローチを選択し、適応します モデルの精度と性能にどう影響するかを 示します
0.90
This method allows a high flexibility that can be applied for classification and regression predictions on various network types and different data sets. この手法は、様々なネットワークタイプと異なるデータセットの分類と回帰予測に適用可能な高い柔軟性を可能にする。 0.87
Paper contributions: to the best of our knowledge, this is the first research study addressing these challenges and proposing a bi-level prediction framework using a large pallet of several machine learning models applied for both incident duration classification and regression, with the scope of predicting the incident duration on different road types across two different cities (Sydney, Australia, and San-Francisco, U.S.A.). 論文の寄稿: 最善の知識に対して、これはこれらの課題に対処する最初の研究であり、2つの異なる都市(シドニー、オーストラリア、サンフランシコ)の異なる道路タイプにおけるインシデント期間を予測する範囲で、インシデント期間の分類と回帰の両方に適用される複数の機械学習モデルの大規模なパレットを使用して、2段階の予測フレームワークを提案する。 0.77
The summary of main contributions contains: 主な貢献の要約は以下のとおりである。 0.56
a)abinaryversusmulti -classclassificationmethodinordert ofindthebestoptimalthre sholdtoidentifyshort versus long-term incidents, a) 短期的事件と長期的事件とをいう。 0.14
b) a novel IEO-ML algorithm which integrates baseline ML models with outlier removal and intra-extra joint optimisation techniques across the validation cycle, b) バリデーションサイクル全体にわたって、外れ値除去とextraジョイント最適化技術を備えたベースラインmlモデルを統合する新しいieo-mlアルゴリズム 0.70
c) a detailed analysis on best scenarios to c) 最善のシナリオに関する詳細な分析 0.87
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 2 of 27 27ページ。 0.50
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
train and test the models across all data sets, and d) a feature importance selection from the best performing model to showcase the most important factors affecting how long incidents will last on urban roads. すべてのデータセットにまたがってモデルをトレーニングし、テストし、d) 都会の道路でのインシデントがどれだけ長く続くかを示す上で、最高のパフォーマンスモデルから重要な選択をすること。
訳抜け防止モード: すべてのデータセットでモデルをトレーニングし、テストします。そして、d) 最高のパフォーマンスモデルから選択する機能の重要性 都市道路における事故の持続時間に影響を与える最も重要な要因を示す。
0.78
Overall, this research lays the foundation stone of bi-level predictive methodologies regarding the traffic incident duration and can provide accurate information for both the end-user route choice modelling as well as for the operational centres which need to optimise their operations under non-recurrent traffic congestion. 概して、この研究は、トラフィックインシデント期間に関する二段階予測手法の基礎を成し、エンドユーザー経路選択モデリングと、非リカレント交通渋滞下での運用を最適化する必要がある運用センタの両方に正確な情報を提供することができる。 0.79
Moreover, this work contributes to our ongoing objective to build a real-time platform for predicting traffic congestion and to evaluate the incident impact during peak hours (see our previous works published in [33]-[37]-[32]). さらに、この研究は、交通渋滞予測のためのリアルタイムプラットフォームの構築とピーク時のインシデント影響の評価という、現在進行中の目標に寄与します(以前の[33]-[37]-[32]の論文を参照)。 0.68
The paper is organised as follows: Section 1 discusses related works, Section 2 presents the data sources available forthisstudy, Section3showcasesthe methodology, Section4presentsthen umericalresultsforbi naryandmulti-class classification tasks, Section 5 presents the numerical results of the regression part of the framework, Section 6 details on the feature importance evaluation and Section 7 is reserved for conclusions and future perspectives. 第1節では関連する作業について論じ、第2節ではforthisstudy, section3showcasesthe methodology, section4presentsthen umericalresultsforbi nary andmulti-class分類タスク、第5節ではフレームワークの回帰部の数値結果、第6節では特徴重要度評価の詳細、第7節は結論と今後の展望のために予約されている。 0.65
1.3. Related works Incident data interpretation: The definition of traffic incident duration phases is provided in the Highway Capacity Manual [2], and it consists of the following time-intervals: 1.3. 関連する作業 インシデントデータ解釈: トラフィックインシデント期間のフェーズの定義は、高速道路容量マニュアル[2]で提供されており、以下のタイムインターバルで構成されている。 0.52
1) incident detection time which is the time interval between the incident occurrence and its reporting, 1)インシデント発生と報告との間の時間間隔であるインシデント検出時間。 0.62
2) incident response time standing for the time interval between the incident reporting and the arrival of the first investigator at the location of the accident, 2 事故報告から第一調査官の到着までの期間の経過日時
訳抜け防止モード: 2) インシデント応答時間は、インシデント報告の間の時間間隔を表す 事故現場に最初の調査員が到着しました
0.70
3) incident clearance time representing the time interval between the arrival of the first investigator and the clearance of the incident, 3 第一調査員の到着から事件クリアランスまでの期間を表すインシデントクリアランス時間
訳抜け防止モード: 3)第1の調査員の到着までの時間間隔を表すインシデントクリアランス時間 事件の明快さは
0.70
4) incident recovery time indicating the time interval between the clearance of the incident and the return of traffic flows to normal conditions. 4)インシデント復旧時間(インシデントクリアランスと交通の復帰との時間間隔)は、正常な状態までである。
訳抜け防止モード: 4) インシデント回復時間は、インシデントのクリアランスの間の時間間隔を示す そして、トラフィックの戻りは正常な状況に流れます。
0.70
The total incident duration is the time interval between the first incident log, and the returning of traffic flows to normal conditions. 総インシデント期間は、第1インシデントログとトラフィックの正常な状態への復帰との間の時間間隔である。 0.63
In our work, we use the term incident duration for the time lapse between the detection of an incident and the clearance of the incident, as officially reported in traffic logs provided by local traffic authorities. 本研究は,交通機関の交通記録で公式に報告されているように,事故検出と事故のクリアランスの間の時間経過に,事故期間という用語を用いている。 0.67
Thereforewedonotincl udetheincidentrecove rytimeasthisinformat ionisnotrecordedinth ethreedatasetsprovid ed. したがって3つのデータ集合は発見されない。 0.13
However, differentphasesoftrafficincidentduration(e g clearance, recoverytime)canbemo delledindividuallyup on availability; this type of research is rare because of the complexity of data collection for traffic incidents and small amounts of recorded traffic incidents in real-life datasets [26, 2]. しかし、このタイプの研究は、トラヒックインシデントに対するデータ収集の複雑さと、実際のデータセット[26, 2]における記録されたトラフィックインシデントが少量であることから、稀である。 0.65
When it comes to the data interpretation in the literature, the incident duration distribution has been modelled as log-normal [39] and more recently as log-logistics distribution [11, 38]. 文献におけるデータ解釈に関しては、インシデント持続時間分布をログ正規[39]、最近ではログロジクス分布[11,38]としてモデル化している。 0.85
In a recent study [15], incident clearance time and the total impact duration were modelled using Weibull, log-normal, log-logistic distributions and compared using the Akaike information criterion (AIC) criteria; findings have revealed that log-logistic distribution was outperforming other distributions. 最近の研究 [15] では、インシデントクリアランス時間とトータル衝撃時間は、weibull, log-normal, log-logistic distributionsを用いてモデル化され、acadeke information criterion (aic) 基準を用いて比較された。 0.69
As distribution utilisation is highly related to the specificity of each data set, for this study, in which we use three different data sets, we further apply a comparison among several distribution modelling choices by using the AIC criteria. 分散利用は,各データセットの特異性に大きく関連しているため,本研究では3つの異なるデータセットを用いて,aic基準を用いて,複数の分散モデリング選択の比較を行う。 0.81
Machine Learning for incident duration prediction: While several statistical modelling techniques have been appliedpreviously,mo rerecently,newapproa chesinmachinelearnin g(ML)modellinghaveem ergedasamoreadvanced wayofpredictingthein cidentdurationduetot heircapacitytoeasily accountfornewdatasou rces, aswellasforremoving the linearity assumptions between features and the predicted class [18]. インシデント期間予測のための機械学習:いくつかの統計的モデリング技術が前もって適用されてきたが、特徴と予測されたクラス間の線形性仮定を排除した[18]。 0.75
Examples of such approaches are: artificial neural networks (ANNs) [29], genetic algorithms [23], support vector machines (SVMs) [40], k-Nearest-Neighbours (kNNs) [42] and decision-trees (DTs) [16]. 例えば、人工知能(ANN) [29]、遺伝的アルゴリズム[23]、サポートベクターマシン(SVM) [40]、k-Nearest-Neighbours (kNN) [42]、決定ツリー(DT) [16]である。
訳抜け防止モード: そのようなアプローチの例として、人工ニューラルネットワーク(ANN) [29 ] がある。 遺伝的アルゴリズム [23 ],サポートベクターマシン (SVM ) [40 ] k - Nearest - Neighbours (kNNs ) [42] そして決定 - 木 (DTs ) [ 16 ]
0.87
The recently proposed Gradient-Boosted Decision Trees (GBDTs) have been shown to provide superior prediction performance when compared to Random Forests, SVMs and ANNs [31]. 最近提案されたGBDT(Gradient-Booste d Decision Trees)は,Random Forests,SVMs,ANNs[31]と比較して,優れた予測性能が得られた。 0.76
However, it is known that GBDT can easily over-fit when the prediction target has a long-tail distribution, as is the case of the traffic incident duration distribution [31]. しかし,トラフィックインシデント時間分布[31]のように,予測対象がロングテール分布の場合,gbdtが容易に過剰に適合することが知られている。 0.84
XGBoost [7] is another decision-tree enhancement method that has gained popularity recently in the machine learning community due to its tree boosting capability, loss function regularisation and adaptive learning rate. XGBoost [7]は、木の増加能力、損失関数の正規化、適応学習率により、機械学習コミュニティで最近人気を博した、決定木拡張手法である。 0.74
It was employed in several international competitions, winning 17 out of the 29 Kaggle competitions singled out on the 2015 Kaggle blog; it was also employed by every team in the top-10 in the 2015 KDDCup [3] for solving various problems such as store sales prediction, web text classification, hazard risk prediction, and product categorisation. また、2015年のkddcup [3]では、店の売り上げ予測、webテキストの分類、ハザードリスクの予測、製品の分類といった様々な問題を解決するためにトップ10のすべてのチームによって雇われた。
訳抜け防止モード: いくつかの国際大会に出場した。 2015年のKaggleブログで、29のKaggleコンペで17勝 また、2015年のKDDCup[3]では、店頭販売予測などの様々な問題を解決するために、各チームのトップ10に採用された。 Webテキスト分類、リスク予測、製品分類。
0.70
XGBoost’s popularity is also due to its scalability (it can run on a single machine, as well as on distributed and paralleled clusters), its capacity to handle sparse data and the ability to handle instance weights in approximate tree learning (see the recent paper published by [7] where authors proposed an end-to-end tree boosting system with cache-aware and sparsity learning features). XGBoostの人気は、スケーラビリティ(シングルマシンでも、分散クラスタでも動かせる)、スパースデータを扱う能力、ほぼ木習いのインスタンス重みを扱う能力([7]で発表された最近の論文では、著者がキャッシュ認識とスパーシティ学習機能を備えたエンドツーエンドのツリーブースティングシステムを提案した)にも起因している。 0.71
While each of these methods has its advantages and disadvantages, building a fast and reliable prediction framework that could be applied for real-time これらの手法には長所と短所があるが、リアルタイムに適用可能な高速で信頼性の高い予測フレームワークの構築 0.71
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 3 of 27 27ページ。 0.51
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
operations represents a true challenge. 運用は真の課題である。 0.56
One of the recent research studies [22] presented a two-step approach for traffic incident duration prediction. 最近の研究の1つ[22]は、交通事故発生期間予測のための2段階のアプローチを示した。 0.67
A cost-sensitive Bayesian network was used to perform binary classification of traffic incidents by choosing a threshold of 30 minutes and then performing regression for each class using kNN. コストに敏感なベイズネットワークを用いて,30分間の閾値を選択し,kNNを用いて各クラスに対して回帰処理を行うことにより,トラフィックインシデントを二分分類した。 0.65
While the approach is functional, one major drawback for the classification problem is to manually choose the class split threshold, as it can lead to severe class imbalance; to overcome this issue, in our study, we perform both a fixed and a varying threshold set-up to find the best class balance for our classification models; even-more, we propose as well a comparison with a multi-class classification approach and debate on the benefits and drawbacks of using classifiers for such problems; we also enhanced more advanced regression models together with outlier removal procedures that would provide a better and more precise prediction of the incident duration precondition in minutes. While the approach is functional, one major drawback for the classification problem is to manually choose the class split threshold, as it can lead to severe class imbalance; to overcome this issue, in our study, we perform both a fixed and a varying threshold set-up to find the best class balance for our classification models; even-more, we propose as well a comparison with a multi-class classification approach and debate on the benefits and drawbacks of using classifiers for such problems; we also enhanced more advanced regression models together with outlier removal procedures that would provide a better and more precise prediction of the incident duration precondition in minutes.
訳抜け防止モード: アプローチは機能的であるが、分類問題の大きな欠点は1つである。 手動でクラス分割しきい値を選択する この問題を克服するためです 我々の研究では、固定閾値と可変しきい値の両方を上向きに実行します。 分類モデルに最適なクラスバランスを 探すために さらに我々は,複数クラス分類手法との比較や,そのような問題に対する分類器の使用のメリットと欠点に関する議論も提案している。 数分で事故発生期間を より正確に予測できるでしょう
0.72
Overall, the cost sensitivity of incorrect classification can be further extended to the cost-based regression metrics. 全体として、誤った分類のコスト感受性は、コストベースの回帰指標にさらに拡張することができる。 0.60
We propose our enhanced ML models with a proposed intra and extra joint optimisation technique and outlier removal procedure to have even more precise predictions. 我々は,より正確な予測を行うために,関節内最適化法と外乱除去法を併用した拡張MLモデルを提案する。 0.75
In one of the recent research studies on applying machine learning, which was related to the classification of driving state, multiple hyper-optimised ML models were tested, and entire feature space was visualised using t-SNE for entire feature space visualisation [43]. 運転状態の分類に関連する機械学習の適用に関する最近の研究の1つとして、複数の超最適化MLモデルをテストし、特徴空間全体の可視化のためにt-SNEを用いて全特徴空間を可視化した[43]。 0.80
RandomForest provided the highest prediction accuracy, but more advanced tree-based models exist that utilise gradient boosting, which we will be using in our research (e g gradient boosted decision trees). randomforestは予測精度が最も高いが、勾配ブースティング(勾配ブースト決定木など)を利用するより高度な木ベースモデルが存在する。
訳抜け防止モード: ランダムフォレストは最も予測精度が高いが、より高度な木-勾配ブースティングを利用するモデルが存在する。 私たちの研究で使うもの(勾配強化決定木など)です。
0.71
To verify the performance of advanced tree-based methods (as LGBM), additional conventional ML models can be used [9]. 先進的なツリーベース手法(LGBMなど)の性能を検証するため,従来のMLモデルも[9]に応用できる。 0.80
We decided to also include LGBM and compare it to conventional ML models with non-tree based models (KNN and Logistic Regression). 我々はLGBMも含み、従来のMLモデルと非ツリーモデル(KNNとロジスティック回帰)を比較した。 0.68
On the feature selection: Itisgenerallynotenou ghtouseallthepossibl efeaturesfortheregre ssionanalysisoftraffic incident durations. 特徴選択に就て : 有意な出来事の時間的分析をめざして 0.44
Using a high amount of features combined with a small data set size can lead to over-fitting. 大量の機能と小さなデータセットのサイズを組み合わせると、オーバーフィッティングにつながる可能性がある。 0.69
Some features can be helpful or useless, more or less critical, while others do not impact much the prediction results. 一部の機能は役に立たない、あるいは役に立たない、多かれ少なかれ重要な機能だが、予測結果にはあまり影響しない機能もある。
訳抜け防止モード: いくつかの機能は役に立ち、役に立ちません。 他の人は予測結果に大きな影響を与えません
0.65
By performing a feature importance analysis, we can recommend traffic management facilities to record the most critical data and omit redundant data related to traffic incidents. 特徴重要度分析を行うことにより、交通管理施設に最も重要なデータを記録し、交通事故に関連する冗長なデータを省略することを推奨できる。 0.68
Also, we can increase the precision of specific observations (e g weather condition), which were found to play a significant role in some research studies (e g during summer and autumn seasons, response team preparation time was higher on freeways in Washington, USA in 2009 [19], with no noticeable effect on clearance and response team travel time. また,2009 [19] 年にはアメリカ合衆国ワシントン州の高速道路において,いくつかの研究で重要な役割を担っていることが判明した特定の観測(気象条件など)の精度を向上させることが可能となり,クリアランスやチームの移動時間に対する顕著な影響は認められなかった。 0.74
Peak hours were the most influencing feature on response team preparation delay, which was found to be linked to response procedures (the goal of the response team was to resolve incidents during peak hours as soon as possible). ピーク時間(Peak hours)は、応答チームの準備遅延に最も影響する機能であり、レスポンス手順と関連があることが判明した(応答チームの目標は、ピーク時のインシデントをできるだけ早く解決することであった)。 0.69
A research study using Beijing traffic incidents data from 2008 [27] found the importance of "peak hour" value for the response team travel time and clearance time, but not for the intervention team preparation time. 2008 [27] 年の北京交通事故データを用いた調査では、介入チーム準備時間ではなく、対応チーム旅行時間とクリアランス時間に「ピークアワー」の値が重要であることが判明した。 0.70
Our study conducts a feature importance ranking based on the best performing ML models we have proposed and provides a detailed overview of their impact. 本研究は,提案した最高のMLモデルに基づいて,特徴重要度ランキングを実施し,その影響を詳述する。 0.78
Different approaches to feature importance estimation use tree-based models (e g Random Forest, LightGBM, XGBoost). 木モデル(例:Random Forest、LightGBM、XGBoost)を用いた特徴重要度推定への異なるアプローチ。 0.79
For example, one can use produced decision trees from the tree-ensemble model [9]. 例えば、ツリーアンサンブルモデル[9]から生成された決定木を使うことができる。 0.82
A data-driven approach was used to perform information fusion from different sources [1], which involved the use of Gini-index extracted from Random Forests as a method to estimate feature importance. 異なる情報源から情報融合を行うためのデータ駆動手法 [1] を用いて,特徴量の推定方法としてランダム林から抽出したgini-indexを用いた。 0.84
Nevertheless, the single random model can have a noticeable variance in data mapping when there is a weak connection between features and the target variable by making the feature importance value dependent on the random seed for the model. それでも、単一ランダムモデルは、モデルに対するランダムシードに依存する特徴重み付けを行うことにより、特徴と対象変数との間に弱い接続がある場合、データマッピングにおいて顕著なばらつきを持つことができる。 0.78
The Shapley Additive explanation (SHAP) [30] provides a more advanced approache for feature importance estimation because it fuses estimation from multiple models trained across many different subsets (which selected both feature-scale and index-scale) of the dataset. Shapley Additive explanation (SHAP) [30]は、データセットのさまざまなサブセット(機能スケールとインデックススケールの両方を選択した)でトレーニングされた複数のモデルからの推定を融合するため、機能重要度推定のためのより高度なアプローチを提供する。 0.73
These studies motivated the utilisation of the Shap Values for our feature importance ranking across three different data sets, all with different features and incident information. これらの研究は、3つの異なるデータセットにまたがる特徴重要度ランキングにshap値を活用し、それぞれ異なる特徴とインシデント情報を持つ。 0.78
In comparison with other work, the research proposed in our paper On the future application of our research: comes not only with a significant prediction capability for all types of incident data sets with various features, but it can be further extended for solving the route scheduling problem within traffic simulation modelling, which will incorporate the adaptation of agents to occurring traffic incidents. 他の研究と比較して、我々の研究の将来の応用に関する論文で提案された研究は、様々な特徴を持つ全ての種類のインシデントデータセットに対して重要な予測能力を持つだけでなく、トラフィックシミュレーションモデル内の経路スケジューリング問題を解決するためにさらに拡張することができる。 0.75
Apart from analysing the effects of traffic control measures [21], it is possible to analyse the effect of additional information such as the predicted incident duration, which can be performed both for scheduling and online rescheduling of dynamic agent re-routing. 交通制御対策[21]の効果を解析することとは別に、動的エージェント再ルーティングのスケジューリングとオンライン再スケジュールの両方に、予測インシデント時間などの追加情報の効果を分析することができる。 0.78
Furthermore, simulation can be performed with and without such information to estimate the possible benefits of the incident duration prediction modelling within the traffic system. さらに、交通システム内のインシデント持続時間予測モデリングの利点を推定するために、そのような情報なしでシミュレーションを行うことができる。 0.79
Also, using an online rescheduling procedure requires the simulation to また、オンライン再スケジュール手順を使用するには、シミュレーションが必要となる。 0.54
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 4 of 27 27ページ。 0.52
英語(論文から抽出)日本語訳スコア
be performed at the level of dynamic agents within a micro-simulation model, which could benefit from new re-routing schemes when traffic disruptions occur along the route. マイクロシミュレートモデル内の動的エージェントのレベルで実行されるため、経路に沿ってトラフィックの混乱が発生した場合、新しい再ルーティングスキームの恩恵を受けることができる。 0.63
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
2. DATA SOURCES In order to test the efficiency of the proposed bi-level framework, we have used three different data sets from two different countries: Australia and U.S.A. 2) 提案した2レベルフレームワークの効率性をテストするために,オーストラリアと米国という2つの異なる国の3つの異なるデータセットを使用した。 0.80
The three data sets represent incident logs from an arterial road suburb in Sydney, a motorway in Sydney, Australia, and a road area from San Francisco, U.S.A. この3つのデータセットは、シドニーの幹線道路郊外、オーストラリアのシドニーの自動車道、米国サンフランシスコの道路エリアからのインシデントログを表している。 0.71
The data sets are all recorded by different means and allow us to explore the impact of the prediction framework across various types of road networks. データセットはすべて異なる方法で記録され、様々なタイプの道路網にまたがる予測フレームワークの影響を調べることができる。
訳抜け防止モード: データセットはすべて異なる方法で記録され、許可される 様々な種類の道路網にまたがる予測フレームワークの影響を探るためです
0.82
The three data sets are represented in Fig 1 and are detailed as follows. 3つのデータセットは図1で表され、以下に詳述する。 0.80
Figure 1: Data profiling for all data sets in our study: Victoria Rd (A) - a) network mapping, d) ecdf g) distribution plot; M7 motorway (M) - b) network mapping, e) ecdf h) distribution plot; San Francisco (SF) - c) network mapping, f) ecdf i) distribution plot. 図1: 研究におけるすべてのデータセットのデータプロファイリング: Victoria Rd (A) - a) network mapping, d) ecdf g) distribution plot; M7 motorway (M) - b) network mapping, e) ecdf h) distribution plot; San Francisco (SF) - c) network mapping, f) ecdf i) distribution plot。 0.87
Victoria Rd - arterial network, Sydney: The first data set (dataset AR) contains one-year incident logs from the Victoria arterial road from Sydney, Australia (in 2017) (see Table 1 for a summary of features). Victoria Rd - アーテリアル・ネットワーク - シドニー: 最初のデータセット(データセットAR)には、オーストラリアのシドニー(2017年)からのビクトリア・アーテリアル・ロードからの1年間のインシデントログが含まれている。
訳抜け防止モード: victoria rd - arterial network, sydney : the first data set (dataset ar )には、オーストラリア、シドニーのvictoria arterial road(2017年)から1年分のインシデントログが含まれている。 機能の概要は表1を参照してください)。
0.76
It contains information on 5,134 traffic incidents with different incident types (e g hazards, breakdowns, accidents) and subtypes (e g work zone, accident with truck). 危険、故障、事故など、さまざまなインシデントタイプを持つ5,134件の交通インシデントとサブタイプ(作業ゾーン、トラック事故など)に関する情報が含まれている。 0.79
Our current study focuses on 574 “Accidents” since these induce the longest clearance time in the current subnetwork according to the traffic management centre (TMC). 本研究は,交通管理センター(TMC)によると,現在のサブネットワークにおける最長クリアランスタイムを誘導するため,574Accidentsに着目した。 0.84
Traffic ’Accidents’ have a mean duration of 44.59 minutes and a maximum of 719 minutes. Accidents’の平均所要時間は44.59分、最大所要時間は719分である。 0.59
Weather data represented as average daily temperature (in Celsius) and precipitation rate (in millimetres) are obtained from the Observatory Hill station in Northern Sydney, which is the closeststationtothea nalysisarea. 1日平均気温(摂氏1度)と降水率(ミリメートル)として表される気象データは、シドニー北部にある観測所ヒル駅(英語版)から得られた。 0.73
Publicholidaydatarep resentedasbooleanval uesforpublicandregio nalholidaysin 2017 in New South Wales, Australia. 2017年、オーストラリア・ニューサウスウェールズ州で公布された。 0.50
The area geometry features contain the sector ID as defined by TMC, the code of 面積幾何学の特徴は、TMCによって定義されたセクターIDを含む。 0.63
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 5 of 27 27ページ5ページ。 0.74
Victoria subnetwork M7 Motorway (M)San-Francisco network (SF)(AR)a))c)b)f)e)d h))gi) victoria subnetwork m7 motorway (m)san-francisco network (sf)(ar)(a))c(b)f(e) dh)gi) 0.42
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
+ ࡃ, ࡃ + {0, 1, … , 23} + {1, 0} + {1 … 5} + {0, 1} + {1, 2, … , 12} + {, , , , . + ࡃ, ࡃ + {0, 1, … , 23} + {1, 0} + {1 … 5} + {0, 1} + {1, 2, … , 12} + {, , , , . 0.42
} + {1, 2, 3, 4, , , } + E, W, N, S, E-W, N-S, One/Both + {ࢧ  ,   , } } + {1, 2, 3, 4, \,\,\,\,} + e, w, n, s, e-w, n-s, 1/ both + {1, 2, 3, 4, s} + e, w, n,
訳抜け防止モード: } + { 1, 2, 3, 4, , e, w, n, s, s である。 e - w, n - s, 1 / both + { ࢧ  ,    ,  }
0.85
AR M Values Variable + Location + Hour of day Peak Hour + + Day of the week + Weekend Month of the Year + + Incident Subtype + Affected lanes + Direction Incident Source + Unplanned + Average Temperature + + Rainfall + Public holidays Sector ID + + TZName + Section ID + Section Speed + Section Lanes Section class + + Street ID + Intersection ID + Distance from CBD Section Capacity + Table 1 Traffic incident features for Sydney Arterial roads (AR) and M7 motorway (M). AR M Values Variable + Location + Hour of day Peak Hour + + Day of the week + Weekend Month of the Year + + Incident Subtype + Affected lanes + Direction Incident Source + Unplanned + Average Temperature + + Rainfall + Public holidays Sector ID + + TZName + Section ID + Section Speed + Section Lanes Section class + + Street ID + Intersection ID + Distance from CBD Section Capacity + Table 1 Traffic incident features for Sydney Arterial road (AR) and M7 motorway (M)。
訳抜け防止モード: ar m value variable + location + hour of day peak hour + day of the week (英語) +1年の週末月+インシデントサブタイプ+影響を受けた車線+方向インシデントソース + 計画外 + 平均気温 + + 降雨 + 休日セクタ id + + tzname + section id + section speed + section lanes section class + + street id + 交差点id + cbd区間からの距離 + テーブル1 シドニー幹線道路(ar)の交通インシデント機能 m7 (m7 motorway) の略。
0.78
Description ,  in GDA Lambert coordinatesValue is 1 if hour belongs to {7 … 9} or {16 … 18} hour interval Weekday numbers from Monday to Friday Value is 1 for Saturday and 0 for SundayField indicating cause of incident Number of lanes affected by the accident Affected traffic direction Source of the incident report Value is 1 if incident is planned, 0 otherwise Average temperature for the time of the incident Rainfall for the time of the incident Value is 1 if days is a public holiday Defined by TMC Traffic zone name as Defined by the Bureau of Transport Statistics Road section on which the incident occurred Section speed limit Number of section lanes As defined by TMC As defined by TMC As defined by TMC distance between the traffic incident and the city CBD Maximum flow capacity of the section Description ,  in GDA Lambert coordinatesValue is 1 if hour belongs to {7 … 9} or {16 … 18} hour interval Weekday numbers from Monday to Friday Value is 1 for Saturday and 0 for SundayField indicating cause of incident Number of lanes affected by the accident Affected traffic direction Source of the incident report Value is 1 if incident is planned, 0 otherwise Average temperature for the time of the incident Rainfall for the time of the incident Value is 1 if days is a public holiday Defined by TMC Traffic zone name as Defined by the Bureau of Transport Statistics Road section on which the incident occurred Section speed limit Number of section lanes As defined by TMC As defined by TMC As defined by TMC distance between the traffic incident and the city CBD Maximum flow capacity of the section
訳抜け防止モード: GDA Lambert coordinatesValue は時間が { 7 ... 9 } に属する場合 1 である。 または16...18 } 月曜日から金曜日までの平日時間間隔の数字は土曜日の1である 事故発生時の交通方向に影響した車線数 事故発生時の報告値の出典は,事故発生時の1である。 0 事故発生時の平均降水温度は、事故発生時の平均降水量は、1 日が公共の休日であれば1 である 交通統計局が定める TMC 交通帯の名称で定める 事故発生時の区間速度制限数 TMC の区間速度制限数 TMC で定める 交通事故間のTMC 距離で定める。 この区間のCBD最大流量容量は
0.70
{0, 1} + {11.13 − 32.4} + {0 − 85} + {0, 1} + R+ R+ R+  + [ࢧÒ] {1, 2, 3, 4, 5, 6} + + + + {0 … 3100 ÒࢧÒ} {0, 1} + {11.13 − 32.4} + {0 − 85} + {0, 1} + R+ R+ R+  + [ࢧÒ] {1, 2, 3, 4, 5, 6} + + + + {0 … 3100 ÒࢧÒ}
訳抜け防止モード: {0, 1} + { 11.13 − 32.4 } + { 0 − 85 } + { 0, 1 } + r+ r+ r+ である。 + [ ࢧÒ ] { 1, 2, 3, 4, 5 , 6 } + + + + { 0 … 3100 ÒࢧÒ }
0.61
the official area where the accident occurred (as defined by the Bureau of Transport and Statistics), and supplementary information such as section capacity, section speed limit, and the number of lanes. 事故が発生した公式な地域(運輸統計局の定義)と、区間容量、区間速度制限、車線数などの追加情報。 0.50
These features are available for all road sections in the Victoria sub-network, and they were extracted from the official traffic simulation model of the Victoria network, developed in Aimsun and previously used by the authors for conducting an incident impact analysis and traffic prediction [41]. これらの特徴はビクトリア・サブネットワークの全道路区間で利用可能であり、Aimsunで開発されたビクトリア・ネットワークの公式交通シミュレーションモデルから抽出され、以前に著者らがインシデント・インパクト分析と交通予測のために使用した[41]。 0.78
M7 motorway, Sydney: Theseconddatasetisam otorwaydataset(datas etM),consistingof7,1 94trafficaccidents along the M7 motorway in Sydney, Australia, during the same year 2017. 2017年、オーストラリア・シドニーのM7高速道路沿いのコンシスタンス・オブ・7,194 トランフィシック・アシデント (M7 motorway, Sydney: Theseconddatasetisam otorwaydataset,datas etM) 。 0.59
The mean duration of motorway accidents is 47.2 minutes, with a maximum duration of - 598 minutes. 高速道路事故の平均所要時間は47.2分で、最大所要時間は598分である。 0.66
This data set also includes weather data (average daily temperature and precipitation). このデータセットには、天気データ(平均気温と降水量)も含まれている。 0.74
This set of features is similar to the arterial roads data set AR without the geometric features of the lanes (section lanes, section class), intersection ID, distance from the central business district (CBD); this is due to the complexity of mapping of a traffic incident to a correct location along the motorway. この特徴セットは、車線(セクションレーン、セクションクラス)、交差点ID、中央営業地区(CBD)からの距離といった幾何学的特徴のない、動脈道路データセットARに似ている。
訳抜け防止モード: この特徴セットは、車線(区間レーン、区間クラス)、交差点id、および交差点idの幾何学的特徴を持たない、幹線道路データセットarに類似している。 中央事業地区(cbd)からの距離 これは、高速道路沿いの正しい場所への交通事故のマッピングが複雑なためである。
0.76
We make the observation that for both Data set AR and M, the traffic flow information of the affected road sections was omitted for this study since we found previously no significant improvement to the prediction accuracy [33]. 本研究は,arデータとmデータの両方において,従来予測精度に有意な改善が認められていなかった道路区間の交通流動情報を省略することを目的としたものである [33]。 0.80
San-Francisco road network: The last data set is from San-Francisco, U.S.A. (data set SF) and includes information on accidents from all types of roads in the city. san-francisco road network: 最後のデータセットは、米国サンフランシコ(san-francisco, u.s.)からのもので、市内のあらゆる種類の道路からの事故に関する情報を含んでいる。 0.70
It is part of a more considerable initiative entitled "A Countrywide Traffic Accident Dataset", recently released in 2021, which contains 4.2 million accident reports collected for almost 4.5 years since March 2016 [34]. これは2021年にリリースされた"A Countrywide Traffic Accident Dataset"というより重要な取り組みの一環で、2016年3月[34]以降約4.5年間に4200万件の事故報告が集められている。 0.75
The SF data set contains 49 features describing the accidents as detailed in [34] (due to a large table of feature, we refer the reader to the cited paper and not duplicate this feature information). SFデータセットには,[34]に記載された事故を詳細に記述した49の特徴が含まれている(大きな特徴表のため,読者は引用紙を参照し,この特徴情報を複製しない)。 0.84
This study focuses on the "accident” type duration prediction as being the most severe one. 本研究は,「アクシデント」型持続時間の予測を最も重篤な予測として検討する。 0.74
We extract and use 8,754 accident records related to the San-Francisco area. サンフランシスコ地区に関する8,754件の事故記録を抽出し,利用した。 0.55
As observed from Fig 1 図1からわかるように 0.75
c), a significant part of the accidents occurred along the “US-101” highway and “John F. Foran” Freeway. c) 事故のかなりの部分は「us-101」高速道路と「ジョン・f・フォーラン」高速道路沿いで発生した。 0.68
Accidents have a mean duration of 100 minutes and a max duration of 2,715 minutes. 事故時間は平均100分、最大2,715分である。 0.54
Data sets profiling: Each data set undergoes a profiling procedure by investigating the empirical cumulative distribution functions (ECDF as plotted in Fig 1 データセットプロファイリング:各データセットは、図1に示した経験的累積分布関数(ECDF)を調査してプロファイリング手順を実行する 0.86
d), e), f)) and their equivalent log-space distribution plots (as represented in Fig 1 d) e)。 f)とその等価な対数空間分布プロット(図1に示すように) 0.50
g), h), i). g)。 h) 私)。 0.42
The ECDF function presents thresholds of data behaviour (marked in red) across each data set which reveal indicative thresholds of a different behaviour around specific incident duration (see for example Fig 1d) versus Fig. 1f) where the first inflection point is around 40min for data set AR versus 100min for data set SF. ECDF関数は、各データセットにデータ動作のしきい値を表示し、特定のインシデント時間(例えば、図1d)と図1f)の異なる振る舞いの指示しきい値を示し、第1のインフレクションポイントはデータセットARに対して約40min、データセットSFでは100minである。 0.85
Findings reveal significant anomalies representative of each data set. 発見は、各データセットを表す重要な異常を明らかにする。 0.60
For example, data set AR contains a reduced amount of traffic 例えば、データセットarは、トラフィックの量が少なくなります。 0.69
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 6 of 27 27頁6頁。 0.74
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
accidents with small incident duration (zero or less than 4 min), data set M contains an increased number of accidents with zero or one-minute duration, while the data set SF despite not presenting any short term incident duration below 17 minutes, it contains a large number of incidents of 29 and 360 minutes which raises the question of either these are outliers in the data set or simply reveal a road network behaviour in terms of incident management in the area; this also might indicate that it will present unique behaviour under the prediction framework and that different processing techniques needs to be applied for this data set. accidents with small incident duration (zero or less than 4 min), data set M contains an increased number of accidents with zero or one-minute duration, while the data set SF despite not presenting any short term incident duration below 17 minutes, it contains a large number of incidents of 29 and 360 minutes which raises the question of either these are outliers in the data set or simply reveal a road network behaviour in terms of incident management in the area; this also might indicate that it will present unique behaviour under the prediction framework and that different processing techniques needs to be applied for this data set.
訳抜け防止モード: 事故発生期間が小さい事故(0または4分未満) データセットMは、ゼロまたは1分間の事故数の増加を含む。 一方、データセットは、短期的なインシデント期間が17分未満であるにもかかわらず、SFに設定されている。 29分から360分の事件が 多数含まれていて 疑問が浮かび上がっています これらはデータセットの外れ値か、あるいはエリア内のインシデント管理の観点からのロードネットワークの振る舞いを単に明らかにするものです。 予測の枠組みの下で 独特な行動を示します このデータセットに様々な処理技術を適用する必要があります
0.78
We also observe that the incident duration is long-tail distributed, which is likely to pose difficulties for prediction algorithms due to the presence of extreme values (either small or large). また,インシデント期間がロングテール分布であること,極端な値(小ささか大きいか)が存在するため予測アルゴリズムが困難になる可能性が示唆された。 0.81
3. METHODOLOGY Figure 2: The proposed bi-level modelling framework for traffic incident duration prediction. 3.方法論 図2: トラフィックインシデント時間予測のための双方向モデリングフレームワークの提案。 0.57
Clearing accidents in a short time represents a high priority task for traffic management centres (TMC) worldwide. 事故を短時間でクリアすることは、世界中の交通管理センター(TMC)にとって高い優先度の課題である。 0.61
For example, in New South Wales, Australia, the target clearance time for traffic incidents is 45 minutes, but this limit might differ in other countries. 例えば、オーストラリアのニューサウスウェールズ州では、交通事故の目標クリアランス時間は45分であるが、他の国ではこの制限が異なる可能性がある。 0.75
Therefore, in the rest of this paper, we will refer to this threshold as “incident clearance threshold ()” and any incidents cleared before this threshold (e g < 45 min) as "short-term"; incidents which lasted more than the clearance threshold (e g >= 45 min) will be referred to as “long-term” traffic incidents. したがって、このしきい値の残りでは、このしきい値を「事故クリアランスしきい値」とみなし、このしきい値(eg < 45 min)より先にクリアされたあらゆる事象を「短期」とし、クリアランスしきい値(eg >= 45 min)を超える事象を「長期」交通インシデントと呼ぶ。 0.68
A unique threshold will be derived for each dataset and will be discussed further in this paper. 各データセットに対して独自のしきい値が導出され、この論文でさらに議論される。 0.69
The methodology of this paper has its origins in our previous work applied only for arterial roads [33], which we further extend and improve via the joint optimisation and outlier detection enhancements of the prediction framework. 本論文の方法論は,従来の幹線道路 [33] のみに適用した研究にその起源を持ち,予測フレームワークの協調最適化と異常検出の強化によりさらに拡張・改善する。 0.79
The methodology we propose for modelling the incident duration prediction problem is using a bi-level prediction framework combining a classification and regression modelling, as represented in Fig 2. 本提案手法は、図2に示すように、分類と回帰モデルを組み合わせた二段階予測フレームワークを用いて、インシデント期間予測問題をモデル化する。 0.86
This approach has been constructed by considering the real-time operational goals of TMC and providing short duration prediction into the life-cycle of the incident management. このアプローチはtmcのリアルタイム運用目標を考慮し、インシデント管理のライフサイクルに短時間の予測を提供することで構築されている。 0.67
Basedontheinitialtra fficincidentinformation , thefirststepisthedeployme ntofafastclassificationmethodwhich would only predict whether the accident will be either short-term (subset A) or long-term (subset B) - see incoming data set from Fig 2 where the data is split in two parts based on ). basedontheinitialtra fficiidentinformatio n, thefirststepisthedep loymentofafastclassi ficationmethod 事故が短期的(サブセットa)か長期的(サブセットb)かを予測するのみである。 0.50
Next, we test various duration thresholds and select the optimal    , which provides a good class balance and classification performance for each dataset. 次に、様々な持続時間閾値をテストし、各データセットに対して優れたクラスバランスと分類性能を提供する最適な s を選択できる。 0.81
Once the Grigorev et al : Preprint submitted to Elsevier 一度 Grigorev et al : Elsevierに提出されたプレプリント 0.72
Page 7 of 27 Features:Hour of dayIncident SubtypeIncident Reporting SourceAffected Lanes…LDO removalML Classification modelVarying thresholdABAllLDO removalML RegressionmodelABAll ABAllRegression scenariosTrainTestBe st duration split thresholdBest ML model for each scenarioA = short-term incidentsB = long-term incidentsAll = All traffic incidentsBest LDO removal threshold 27ページ7頁。 特徴:Hour of dayIncident Subtype Incident Reporting SourceAffected Lanes...LDO removalML Classification modelVarying thresholdABAllLDO removalML RegressionmodelABAll ABAllRegression scenariosTrainTestBe st duration split thresholdA = short-term incidentsB = long-term incidentsAll = All traffic incidentsBest LDO removal threshold 0.58
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
optimal    has been found, a further regression modelling is applied for predicting a more precise duration of future incidents down to the minute level. 最適 > > > > が発見され、将来の出来事をより正確に予測するためにさらなる回帰モデルが適用された。
訳抜け防止モード: 最適性は発見されている。 さらなる回帰モデリングが適用されます 将来のインシデントをより正確に予測し、分単位まで予測する。
0.66
Due to the main challenge of this task, we further propose an outlier removal approach (ORM) detailed in Section 3.6 and our innovative Intra/Extra Joint Optimisation modelling coupled with several machine learning models trained via a hyper parameter tuning (we denote this approach as IEO-ML and is further detailed in Section 3.7). 本課題の主課題として,第3.6節で詳述した外乱除去手法(ORM)と,ハイパーパラメータチューニングによって訓練された機械学習モデルとを併用した革新的な内外共同最適化モデルを提案する(この手法をIEO-MLと呼び,第3.7節で詳述する)。 0.75
The boosted regression framework is finally applied under several regression scenarios (see section Section 3.5), which are constructed to evaluate the framework capability to predict under all possible situations. ブーストレグレッションフレームワークは、最終的にいくつかのレグレッションシナリオ(セクション3.5参照)で適用され、すべての可能な状況下で予測するフレームワーク能力を評価するために構築される。 0.63
For example, when we only have a subset A available (short-term incidents) but the TMC would like to predict long term incident (subset B) we denote this as a Scenario A-to-B (training the models on subset A and making predictions on subset B); all scenarios are constructed based on the assumptions that the framework needs to be robust in order to predict any type of incident durations, under all possible data shortage or lack of information availability. 例えば、サブセットAのみが利用可能な場合(短期的なインシデント)、TMCが長期的なインシデント(サブセットB)を予測したい場合、シナリオA-to-B(サブセットAでモデルをトレーニングし、サブセットBで予測する)と表現します。
訳抜け防止モード: 例えば、いつ 利用可能なサブセットA(短期的なインシデント)しかありません。 しかし、TMCは、長期的インシデント(サブセットB)を予測したいと考えています。 サブセットAでモデルをトレーニングし、サブセットBで予測する すべてのシナリオは、フレームワークが必要とする前提に基づいて構築されます。 robust (複数形 robusts) あらゆる種類のインシデント期間を予測するために、あらゆる可能なデータ不足や情報の可用性の欠如を予測します。
0.70
In the following subsection, we further provide the mathematical and theoretical modelling of each of the steps described above. 以下の節では、上記の各ステップの数学的および理論的モデリングをさらに提供する。 0.71
3.1. Classification and regression definitions 3.1. 分類と回帰の定義 0.39
Using all available data sets and the incident information, we first denote the matrix of traffic incident features as: (1) where  is the total number of traffic incident records used in our modelling and  is the total number of features characterising the incident (severity, number of lanes, type, neighbourhood, etc.) according to each specific data set (see examples provided in Table 1). 利用可能なすべてのデータセットとインシデント情報を用いて、(1) がモデルで使用されるトラフィックインシデントレコードの総数であり、/ が特定のデータセットごとにインシデント(レーン数、車線数、タイプ、近所など)を特徴付ける総数である場合(表1の例を参照)、(1) トラフィックインシデント特徴のマトリックスを示す。 0.68
For the incident duration classification problem, we denote the incident duration classification vector as:  ]ࢠ1.. インシデント期間分類問題については、インシデント期間分類ベクトルを次のように示す。 0.63
  = [    = [  0.42
(2) where N is the duration of the traffic incident (in minutes),  is the vector of binary values taking values in {0, 1}, and  is the vector of integer values for the multi-class classification problem definition, taking values in {0, 1, 2}. 2) n がトラフィックインシデント(数分で)の持続時間である場合、s は {0, 1} で値を取る二進値のベクトルであり、s は多クラス分類問題定義の整数値のベクトルであり、{0, 1, 2} で値を取る。 0.75
More specifically, in the first stage we create a binary classification modelling with the purpose of identifying short versus long-term incident duration, split by the incident clearance threshold . より具体的には、第1段階では、短期または長期のインシデント期間を特定する目的で、インシデントクリアランスしきい値によって分割されたバイナリ分類モデルを作成する。 0.67
Thus our task is to predict  , where  takes one of the binary values: したがって、我々のタスクは、次の二進値の1つを取る s を予測することである。 0.62
  ࢠ {0, 1} ]ࢠ1..   ࢠ {0, 1} ]ࢠ1.. 0.50
   ࢠ {0, 1, 2}    ࢠ {0, 1, 2} 0.42
 = [  = []=1..  = [  = []=1.. 0.43
 =1..   =1..  0.38
follows: (3) wherethethresholdisv ariedevery5minbetwee n  ࢠ {20, 25, ..., 70}. 以下の通り。 (3) wherethethresholdisv ariedevery5minbetwee n  ࢠ {20, 25, ..., 70}. 0.52
Subsequently,themult i-classmethodidentifies the best two thresholds to separate between short, mid and long-term incident duration. その後、multi-classmethodは最善の2つのしきい値を特定し、短期、中期、長期のインシデント期間を分ける。 0.55
The main purpose of this approach is to test the limits of the class balance which would maintain good model performance, and is expressed as このアプローチの主な目的は、優れたモデルパフォーマンスを維持し、次のように表現されるクラスバランスの限界をテストすることである。 0.79
short-term incidents long-term incidents if  ࣘ  1 short-term incidents  ,  ], mid-term incidents  ,  2 if  ࣙ  2 long-term incidents  , 短期的な事件 短期の出来事が1つあれば、中期の出来事が1つで、中期の出来事が2つあるなら、2つが長期の出来事が2つある。 0.57
  = 0  = 1 if  ࢠ [ 1    = 2 where  1  and  2  takeseveralvaluesasf urtherdetailedinSect ion4.3.   = 0  = 1 if  ࢠ [ 1    = 2 where  1  and  2  takeseveralvaluesasf urtherdetailedinSect ion4.3. 0.34
Thebinaryclassificationapproachimplem ented with a computation time constraint for operational purposes (more details on computation time comparison can be found in Appendix B). 操作目的の計算時間制約で実装されたbinaryclassification approachimplemented (計算時間の比較の詳細は appendix b で確認できる)。 0.63
The regression problem is further structured with a more fine-grained incident duration prediction in mind. 回帰問題は、よりきめ細かな入射時間予測を念頭に、さらに構造化される。 0.65
The main objective motivating the regression modelling consists in more precise information regarding the duration of incidents which can fall into a wide class varying, for example, between and 0 and 30 minutes (for these cases, the traffic centres require more detailed precision to the minute level as a 5-min accident has different handling procedures than more severe accidents of 30min for example). 回帰モデリングを動機付ける主な目的は、例えば0分から30分など、幅広いクラスにまたがるインシデントの発生期間に関するより正確な情報である(これらの場合、トラフィックセンタは、例えば5分単位の事故が30分単位の重大事故と異なる処理手順を持つため、分単位に対してより詳細な精度を必要とする)。 0.80
The incident duration regression vector () is represented as: インシデント持続時間回帰ベクトル(i)は次のように表される。 0.67
(4)   = 0 if  ࣘ ,  = 1 if  > ,  (4)   = 0 if  ࣘ ,  = 1 if  > ,  0.42
 = [ ]ࢠ1..  = [ ]ࢠ1.. 0.42
,   ࢠ ࡃ ,   ࢠ ࡃ 0.42
(5) Grigorev et al : Preprint submitted to Elsevier (5) Grigorev et al : Elsevierに提出されたプレプリント 0.60
Page 8 of 27 27ページ8ページ。 0.72
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
and the regression task is to predict the traffic incident duration   based on the traffic incident features ,. そして、退行タスクは、トラフィックインシデントの特徴に基づいて、トラフィックインシデント期間を予測することである。 0.53
The regression models go via an extensive cross-validation procedure with hyper-parameter tuning, with the test of outlier removal using a joint optimisation approach as further detailed in the Section 3.3-Section 3.6-Section 3.7. 回帰モデルは、超パラメータチューニングを伴う広範囲なクロスバリデーション手順を経ており、さらに3.3-セクション3.6-セクション3.7で詳述したジョイント最適化アプローチによる異常除去テストが行われている。 0.68
3.2. Selection of baseline machine learning models We have tested and deployed several ML models for both the classification and regression problems for this current work, which have served as baseline models to compare our proposed optimisation approach. 3.2. ベースライン機械学習モデルの選択 私たちは、この現在の作業の分類問題と回帰問題の両方に対して、いくつかのMLモデルをテスト、デプロイし、提案した最適化アプローチを比較するベースラインモデルとして機能してきた。 0.53
These are listed as follows: a) gradient boosting decision trees - GBDT [13] which rely on training a sequence of models, where each model is added consequently to reduce the residuals of prior models; 以下に列挙する。 a) 勾配強化決定木 - gbdt [13] 一連のモデルのトレーニングに依存している。各モデルの追加により、先行モデルの残余が減少する。 0.54
b) extreme gradient decision trees - XGBoost [8] which finds the split values by enumerating over all the possible splits on all the features (exhaustive search) and contains a regularisation parameter in the objective function; b) 極端な勾配決定木-xgboost [8] は、すべての特徴(探索)上の可能な全ての分割を列挙し、目的関数に正規化パラメータを含むことにより、分割値を見つける。 0.84
c) random forests - RF [5] which applies a bootstrap aggregation (bagging, which consists of training models on randomly selected subsets of data) and uses the average (or majority of votes) of multiple decision trees in order to reduce the sensitivity of a single tree model to noise in the data; c) ランダム・フォレスト - RF[5]は、ブートストラップ・アグリゲーション(データのランダムに選択されたサブセットのトレーニングモデルからなるバッグ)を適用し、複数の決定木の平均(または過半数の投票)を使用して、データのノイズに対する単一ツリーモデルの感度を低下させる。 0.82
d) k-nearest neighbours - kNN [12] which uses for the prediction on data points the majority of votes or the average from k closest neighbouring data points from the training set (based on a distance metric); d) k-nearest neighbors - knn [12] データポイントの予測に使用するk-nearest nearbys - knn[12] トレーニングセットから(距離メトリックに基づいて)kに最も近いデータポイントからの平均値 0.80
e) linear Regressions - LR - a standard predictor using linear equations to model the relation between the features and the regression variable; e) 線形回帰 - LR - 線形方程式を用いて特徴と回帰変数の関係をモデル化する標準予測器。 0.79
f) light gradient boosted machines - LightGBM [20] which applies gradient boosting to treebased models; it also uses a Gradient-based One-Side Sampling (GOSS) and excludes data points with small residuals for finding split value. f)光勾配向上マシン - LightGBM [20]は、ツリーベースモデルに勾配増強を適用します。また、グラディエントベースのワンサイドサンプリング(GOSS)を使用し、スプリット値を見つけるために小さな残差を持つデータポイントを除外します。 0.66
The models have been used for both classification and regression problems (except logistic regression applied to classification only and linear regression to regression problem only). モデルは分類問題と回帰問題の両方に使われている(分類にのみ適用されるロジスティック回帰と回帰問題にのみ適用される線形回帰を除く)。 0.72
They are the main base on which we further enhance and develop our outlier and joint optimisation prediction algorithm used in the current bi-level incident duration prediction framework. それらは,現在のbiレベルインシデント継続時間予測フレームワークで使用されるアウトリアーとジョイント最適化予測アルゴリズムをさらに強化,発展させる主要な基盤である。 0.73
3.3. Hyper-parameter tuning through randomised search Most machine learning algorithms have a set of hyper-parameters related to the internal design of the algorithm that cannot be fitted from the training data. 3.3. ランダム化探索によるハイパーパラメータチューニング ほとんどの機械学習アルゴリズムは、トレーニングデータから適合できないアルゴリズムの内部設計に関連するハイパーパラメータのセットを持っている。 0.60
Both GBDT and XGBoost present dozens of hyper-parameters, out of which the most important ones are max_ depth, learning_rate, min_ child_weight, gamma, subsample, colsample_ bytree and scale_ pos_ weight [24]. GBDTとXGBoostはいずれも数十のハイパーパラメータを示しており、その中で最も重要なものはmax_ depth, Learning_rate, min_ child_weight, gamma, subsample, colsample_ bytree, scale_ pos_ weight [24]である。 0.74
The hyper-parameters are usually tuned through randomised search and crossvalidation. ハイパーパラメータは通常、ランダムな探索とクロスバリデーションによって調整される。 0.56
The most extensive search technique is the grid-search, in which several equally spaced points are chosen in the most credible interval for each parameter, and for each point combination, a model is fitted and tested through cross-validation. 最も広範な探索手法はグリッドサーチであり、各パラメータの最も信頼できる間隔で複数の等間隔の点が選択され、各点の組み合わせに対してモデルが適合し、クロスバリデーションによってテストされる。 0.82
The grid-search parameter tuning is straightforward; however, the grid-search scales poorly as the number of hyper-parameters increases. グリッド探索パラメータチューニングは単純だが,ハイパーパラメータの増加に伴い,グリッド探索のスケールは低下する。 0.80
In this work, we employ a Randomised-Search [4] which selects a (small) number of hyper-parameter configurations randomly to use through cross-validation. 本研究では,クロスバリデーションによってランダムに使用するハイパーパラメータ構成の(小さな)数を選択するランダム化検索[4]を用いる。 0.75
To determine the optimal number of iterations for models and data sets, we perform iterative testing. モデルとデータセットの最適なイテレーション数を決定するために、反復テストを実施します。 0.75
The number ofrandom-searchitera tionsisfrom25to250wi thstep25. ランダム検索数は25から250withstep25。 0.42
Forexample, onFig.3, (Arterialroads, Sydney), weseethat XGBoostisthebestperf ormingmodelstartingf rom120iterations, anditisalreadycloset ooptimumstartingfrom 175 iterations. Forexample, onFig.3, (Arterialroads, Sydney), wesee that XGBoostisthebestperf ormingmodelstarting from 120iterations, anditisalreadycloset ooptimumstarting from 175 iterations。 0.19
Second, bestisLGBM,buttherei snosignificantbenefitforthatmodelfromthe numberofiterations. 第2に,数式から考える。 0.28
Other methods perform significantly worse (more than 110% MAPE). 他の方法は(MAPEが110%以上)著しく悪化する。 0.76
For San-Francisco, we see the superior performance of LGBM. サンフランシスコではLGBMの性能が優れています。 0.62
The second best is XGBoost. 第2位はXGBoostである。 0.66
Since there are no metric improvements across iterations for most models, the number of iterations is essential only for XGBoost. ほとんどのモデルでは、イテレーションにまたがるメトリックな改善はないので、イテレーションの数はxgboostにのみ必要です。 0.71
According to the results, we decide to search for hyper-parameters for 250 random parameter combinations for each model. 結果から,各モデルに対する250個のランダムパラメータの組み合わせに対して,ハイパーパラメータを探索することを決定した。 0.75
We evaluate each combination using a 5-fold cross-validation and then providing results using a 10-fold cross-validation using best combination. それぞれの組み合わせを5倍のクロスバリデーションを用いて評価し、10倍のクロスバリデーションを用いて結果を提供する。 0.66
3.4. Model Performance Evaluation fined as: 3.4. モデルパフォーマンスの評価は以下のとおりである。 0.44
The performance of classification model is evaluated using the Precision, Recall, Accuracy and F1-score and de- 精度,リコール,精度,F1スコアとde-を用いて分類モデルの性能を評価する。 0.75
  =   = 0.42
 =  =  =  = 0.42
  +    +  0.42
  +    +  0.42
, ,  +  , ,  +  0.42
 +  +  +   +  +  +  0.42
, (6) (7) (8) , (6) (7) (8) 0.42
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 9 of 27 27ページ9ページ。 0.73
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Figure 3: Performance testing of ML models across three different data sets 図3:3つの異なるデータセットにわたるMLモデルのパフォーマンステスト 0.87
ࢣ  −  ࢣ  −  0.42
  1 = 2 ࢩ  ࢩ   +    1 = 2 ࢩ  ࢩ   +  0.44
(9) where  represents true negatives,  - false negatives,  - true positives,  - false positives. (9) が真陰性を表す場合, は偽陰性, は偽正, は偽正, は偽正を表す。 0.68
We use F1-score as a target metric for classification experiments as F1 represents the balance between Precision and Recall, and is in general a better performance metric to use when we are facing an uneven class distribution rather than interpreting the Accuracy results which take into consideration the total number of both false positive, false negative together with the true positives and true negatives; therefore for uneven class balances (especially the ones with fewer incident records), one should rely less on Precision and Accuracy metrics. We use F1-score as a target metric for classification experiments as F1 represents the balance between Precision and Recall, and is in general a better performance metric to use when we are facing an uneven class distribution rather than interpreting the Accuracy results which take into consideration the total number of both false positive, false negative together with the true positives and true negatives; therefore for uneven class balances (especially the ones with fewer incident records), one should rely less on Precision and Accuracy metrics.
訳抜け防止モード: F1は精度とリコールのバランスを表すため,F1スコアを分類実験の目標基準として用いる。 そして、一般に、総数の考慮に入れた正確性の結果を解釈するよりも、不均一なクラス分布に直面しているときに使用するより良いパフォーマンス指標です。 偽陽性、偽陰性、真陽性、真陰性の両方のため、不均一なクラスバランス(特にインシデントレコードが少ないもの)に対して。 精度と精度の指標に頼らなければならない。
0.77
To evaluate the regression models we use the mean absolute percentage error defined as: 回帰モデルを評価するために、私たちは平均絶対パーセンテージ誤差を次のように定義します。 0.60
. =1   = 1  . =1   = 1  0.38
(10) where  are the actual values and  - the predicted values,  - number of samples. (10) 実際の値と、予測値と、予測値と、サンプル数とがある場合。 0.69
Other metrics have been calculated but we will keep them concise due to large amount of experiments to show. その他の指標は計算されていますが、大量の実験によって簡潔に保たれます。 0.63
3.5. Regression scenarios definition The main objective of the bi-level framework is that the regression accuracy can benefit from different setups for different data subsets. 3.5. 回帰シナリオの定義 双方向フレームワークの主な目的は、回帰精度が異なるデータサブセットの異なるセットアップから恩恵を受けることができることである。 0.54
For an even better accuracy compared to the classification problems, we are further developing more complex regression models that can provide incident duration prediction at minute-level accuracy. 分類問題と比較してさらに精度が良いため、我々はより複雑な回帰モデルを開発し、マイクロレベルの精度でインシデント持続時間を予測する。 0.76
This is the second step of the bi-level prediction framework to be applied when more precision is needed at the minute level regarding the incident duration length. これは、インシデント期間の長さについて、分単位でより精度が必要な場合に適用されるbiレベルの予測フレームワークの2番目のステップである。 0.65
When training such regression models, a crucial step is the size of the data set and the distribution of the target variable (incident duration). このような回帰モデルをトレーニングする場合、重要なステップはデータセットのサイズとターゲット変数(インシデント継続時間)の分布である。 0.81
Due to the long tail distribution of incident duration and the class imbalance problem previously identified, we need to design and construct various regression models capable of learning from various types of data sets to make accurate predictions. インシデント時間の長さの長いテール分布と以前に特定されたクラス不均衡問題のために、我々は、正確な予測を行うために、様々な種類のデータセットから学習できる様々な回帰モデルを設計し、構築する必要がある。
訳抜け防止モード: 入室期間の長い尾の分布と、予め特定したクラス不均衡の問題により。 様々な種類のデータセットから学習できる様々な回帰モデルの設計と構築が必要です 正確な予測をするのです
0.83
However, with limited information (small data set size), the prediction results can be skewed. しかし、限られた情報(小さなデータセットサイズ)では、予測結果は歪むことができる。 0.80
This is the primary motivation that led to the construction of several scenarios of model training, validation and prediction that can be applied under both complete or incomplete data sets from traffic centres. これは、モデルトレーニング、検証、予測のいくつかのシナリオの構築に繋がる主要な動機であり、それは、トラフィックセンタからの完全または不完全なデータセットの両方で適用できる。 0.62
By using the classification thresholds identified previously, we split the traffic incident data set into two subsets: subset A (with duration below threshold ) and subset B (with duration above threshold ) as previously defined at the beginning of Section 3. 前述した分類しきい値を用いて、トラフィックインシデントデータセットを、第3節の冒頭で定義されたように、サブセットA(しきい値より長い期間)とサブセットB(しきい値より長い期間)の2つのサブセットに分割した。 0.78
We further contract several scenarios of subset combinations for training-validation- testing detailed with the aim of extrapolating the model performance: Scenario All-All: we use the entire data set and apply several regression models using a 10-fold cross-validation approach and different hyper-parameter search methods. シナリオ all-all: データセット全体を使用し、10倍のクロスバリデーションアプローチと異なるハイパーパラメータ探索メソッドを使用して、いくつかの回帰モデルを適用する。
訳抜け防止モード: さらに、トレーニングのためのサブセットの組み合わせのシナリオをいくつか契約します。 -検証 モデルパフォーマンスの補間を目的とした詳細なテスト : シナリオオール - すべて : データセット全体を使用する いくつかの回帰モデルを適用し 10倍のクロス-バリデーションアプローチと異なるハイパー-パラメータ検索メソッドを使用する。
0.65
This approach will show us the general performance across various methods. このアプローチは、様々なメソッドにわたる一般的なパフォーマンスを示します。 0.71
Scenario A-to-B: we use subset A (short-term incidents) for training the regression models and evaluate the prediction on subset B (long-term incidents). シナリオA-to-B: 回帰モデルのトレーニングにサブセットA(短期インシデント)を使用し、サブセットB(長期インシデント)の予測を評価する。 0.80
In this scenario, we will analyse methods to extrapolate to higher values of the target variable. このシナリオでは、ターゲット変数のより高い値に外挿するメソッドを分析します。 0.70
Scenario A-to-A: we use subset A for training the regression models and predict on subset A. In this scenario, we will analyse the prediction ability of methods with long-term incidents excluded (which includes values from the tail of the incident duration distribution). シナリオA-to-A: 回帰モデルをトレーニングし、サブセットAを予測するためにサブセットAを使用します。このシナリオでは、長期インシデントを除外したメソッド(インシデント期間分布の尾から値を含む)の予測能力を分析します。 0.84
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 10 of 27 XGBoostXGBoostXGBoos t 27頁10頁。 XGBoostXGBoostXGBoos t 0.57
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Scenario B-to-A: we use subset B for training the regression models and predict on subset A. In this scenario, we will analyse methods to extrapolate to lower values of the target variable. シナリオB-to-A: 回帰モデルをトレーニングし、サブセットAを予測するためにサブセットBを使用します。
訳抜け防止モード: シナリオb - to - a : 回帰モデルのトレーニングにサブセットbを使う そして、サブセットaで予測します。 このシナリオでは、ターゲット変数の値を外挿するメソッドを分析します。
0.74
Scenario B-to-B: we use subset B for training the regression models and predict on subset B. In this scenario, we will analyse the prediction ability on long-term incidents. シナリオb-to-b:私たちは回帰モデルのトレーニングとサブセットbの予測にサブセットbを使用します。このシナリオでは、長期的なインシデントにおける予測能力を分析します。 0.69
Scenario All-to-A: we use all the data for training the regression models and predict on each fold within subset A. In this scenario, we will analyse the effect of adding long-term incidents data into model training for predicting short-term incidents duration. シナリオ all-to-a: 回帰モデルのトレーニングにすべてのデータを使用し、サブセットa内の各フォールドを予測します。このシナリオでは、モデルトレーニングに長期インシデントデータを追加することで、短期インシデント期間を予測する効果を分析します。
訳抜け防止モード: シナリオ all - to - a : 回帰モデルのトレーニングにすべてのデータを使用する 集合 a 内の各折りたたみを予測します このシナリオでは 短期インシデントを予測するためのモデルトレーニングに長期インシデントデータを追加する効果を分析する。
0.88
Scenario All-to-B: we use all the data for training the regression models and predict on each fold within subset B. In this scenario, we will analyse the effect of adding short-term incidents data into the model training to predict long-term incident duration. シナリオ all-to-b: 回帰モデルのトレーニングにすべてのデータを使用し、サブセットb内の各フォールドを予測します。このシナリオでは、モデルトレーニングに短期インシデントデータを追加することで、長期インシデント期間を予測する効果を分析します。
訳抜け防止モード: シナリオ all - to - b: 回帰モデルのトレーニングにすべてのデータを使用する 集合 b 内の各折りたたみを予測します このシナリオでは 短期インシデントデータをモデルトレーニングに追加する効果について分析する 長期のインシデント期間を予測する。
0.88
3.6. Outlier removal methods (ORM) As previously discussed in Section 2-Fig. 3.6. 外乱除去法(ORM) 第2節で述べたとおり。 0.50
2 during the data profiling, we observed that the traffic incident logs contain outliers appearing as either minor incidents, rare traffic incidents with highly long duration and/or as errors in incident reports. また,データプロファイリングにおいて,交通事故のログには,小事故や稀な交通事故などの発生頻度や,事故報告のエラーが記録されていることも確認した。 0.68
Therefore, to reduce the side-effect of outliers on all models, we deploy two commonly used outlier removalmethods. したがって、すべてのモデルにおける外れ値の副作用を減らすために、よく使われる2つの外れ値除去メソッドをデプロイする。 0.55
TheIsolationForest(I F)[28]isanoutlierremovalme thod,whichusesforest sofrandomlysplittree s. TheIsolationForest(I F)[28]isanoutlierremovalme thod, whichusesforestsofra ndomlysplittrees。 0.29
For each tree, the method randomly selects a feature and a random feature value. 各ツリーに対して、メソッドは、特徴とランダムな特徴値をランダムに選択する。 0.74
The data set is divided into two parts ineachstepuntileachd atapointbecomes“isolated”(splitfromtherestoft hedata). データセットは、ineachstepuntileachd atapointbecomes “isolated”(splitfromtherestoft hedata)の2つの部分に分割される。 0.55
Ifthedatapointisanou tlier, itwill have a small tree depth (e g data point gets quickly separated from the rest by selecting values in just a few features). datapointisanoutlier の場合、小さなツリー深さを持つ(例えば、いくつかの機能で値を選択することで、データポイントが他から素早く分離される)。 0.70
Tree depth is then averaged between all the “isolation” trees and considered an anomaly score (e g if the average tree depth for a point is 1.3, the point is easily separable after a small number of splits). 木の深さは、全ての「孤立」木の間で平均化され、異常スコアと見なされる(例えば、ある点の平均木深さが1.3であれば、少数の分割後に容易に分離できる)。 0.79
LocalOutlierFactor (LOF) [6] is another outlier removal method, which estimates the anomaly score from local deviation of density within k-nearest neighbourhood. LocalOutlierFactor (LOF) [6] は、k-アネレスト近傍の密度の局所的偏差から異常スコアを推定する別の外乱除去法である。 0.82
LOF relies on the calculation of a local reachability density (LRD), which represents the inverse of the average reachability distance (RD) of neighbouring data points from the selected data point. LOFは、選択されたデータポイントから隣接するデータポイントの平均到達可能性距離(RD)の逆を表す局所到達可能性密度(LRD)の計算に依存する。 0.87
Reachability distance (RD) represents the distance to the most distant neighbour within a k-sized neighbourhood (k is also hyper-parameter). 到達可能性距離(Reachability distance、RD)は、kサイズの近傍(kはハイパーパラメータ)の中で最も遠い隣人への距離を表す。 0.68
LOF of data point then represents the relation between LRDs of neighbours and its LRD and can take values: データポイントのLOFは、隣人のRDとRDの関係を表し、値を取ることができます。 0.71
a) above 1 (higher LRD than its neighbours), a) 1以上のもの(隣人より高いlrd) 0.65
b) below 1 (lower LRD than neighbours) and b) 1未満(隣人より低いRD)及び 0.75
c) equal to 1 (data point has the same density as neighbours). c) 1 に等しい(データ点が隣人と同じ密度である)。 0.75
According to the LOF score, we can sort data points and select specific per cent of data points, which have the highest LOF to be eliminated. LOFスコアによると、データポイントをソートして、削除すべき最も高いLOFを持つデータポイントの特定のパーセントを選択することができる。 0.77
LOF method relies on the fact that outliers belong to the area where the density of data points is low, while regular data points belong to the high-density area. LOF法は、外れ値がデータポイントの密度が低い領域に属するのに対して、通常のデータポイントは高密度領域に属するという事実に依存している。 0.79
To summarise, the above outlier removal procedures are applied in conjunction with the proposed optimisation framework and regression models and show a significant improvement in prediction accuracy as further detailed in Section 5.3. 要約するために,提案した最適化フレームワークと回帰モデルと組み合わせて,上記外乱除去手法を適用し,第5部3節でさらに詳細な予測精度が向上したことを示す。 0.80
3.7. Intra/Extra Joint Optimisation for ML regression prediction (IEO-ML) This section presents our novel enhancements of ML regression models by constructing an intra/extra optimisation technique to jointly optimise the hyper-parameters of the regression models together with previous outlier optimisation methods. 3.7. ML回帰予測のためのイントラ・エクストラ共同最適化(IEO-ML) 本項では, 従来のアウレラ最適化手法とともに, 回帰モデルのハイパーパラメータを共同最適化するイントラ・エクストラ最適化手法を構築し, ML回帰モデルの新たな拡張について述べる。 0.52
In the rest of the paper, we denote this approach as IEO-ML, where ML is one of the regression models previously described (GBDT, XGBoost, RF, kNN, LR, LGBM). 論文の残りの部分では、このアプローチをIEO-MLと表現し、MLは前述の回帰モデルの1つである(GBDT、XGBoost、RF、kNN、LR、LGBM)。
訳抜け防止モード: 残りの論文では、このアプローチをIEO - MLと表現します。 MLは先述した回帰モデルの1つである(GBDT、)。 XGBoost , RF , kNN , LR , LGBM )。
0.75
We introduce this approach for multiple reasons: 様々な理由からこのアプローチを紹介します 0.75
1) the traffic incident data is prone to errors during the data collection, which is attributed to human factors (e g presence of incidents with 0 and 1-minute durations, for example), 1) トラヒックインシデントデータは, 人的要因(例えば0, 1分間のインシデントの存在など)によるデータ収集中にエラーが発生しやすい。
訳抜け防止モード: 1) トラフィックインシデントデータは、データ収集中にエラーが発生しやすい。 これは、人的要因(例えば、0分と1分の長さのインシデントの存在)に起因する。 例えば ) ,
0.76
2) an outlier removal performance cannot be assessed on the new dataset with no marking for outliers; thus, we can assess outlier removal performance by looking at model performance with outlier removal applied, use joint outlier removal and modelling to assess the outlier removal performance metrics, 2) 外乱除去性能は,外乱除去のマーキングを伴わない新しいデータセットでは評価できないため,外乱除去を施したモデル性能,関節外乱除去とモデリングを用いて外乱除去性能の指標を評価することにより,外乱除去性能を評価することができる。 0.74
3) both the outlier removal method and models have hyper-parameters forming a single hyper-parameters space, 3) 降圧除去法とモデルの両方が1つの超パラメータ空間を形成する超パラメータを有する。 0.69
4) we assume that the outlier removal can be performed either inside (Intra - see Fig 5) or outside (Extra - see Fig 4) of the cross-validation cycle, and we evaluate the effect of such an approach on the model performance, 4) クロスバリデーションサイクルの内(イントラ - 図5参照)か外(エクストラ - 図4参照)のいずれかで外乱除去を行うことができると仮定し, モデル性能に対するそのようなアプローチの効果を評価する。 0.80
5) Intra joint optimisation can provide a more effective outlier removal since common hyper-parameters will be found for different data subsets, which allows ORM to be adapted to different possible combinations of incidents in case of the model deployment and prediction on the newly acquired incident log. 5) 統合内最適化は、異なるデータサブセットに対して共通のハイパーパラメータが見つかるため、より効果的な外れ値除去を提供することができ、モデル展開や新たに取得したインシデントログでの予測時に、ormを異なるインシデントの組み合わせに適応させることができる。 0.76
Overall we want to compare and observe the impact of each technique on the accuracy of regression models and detect the best combination of Intra/Extra joint optimisation and various ML regression models. 全体として、各手法が回帰モデルの精度に与える影響を比較し、観察し、イントラ/エクストラ関節最適化と各種ML回帰モデルの最適組み合わせを検出する。 0.83
Further, we present our proposed IEO-ML algorithm in conjunction with the two outlier removal methods IF and LOF, and several regressions models. さらに,提案したIEO-MLアルゴリズムと,IFとLOFの2つの外乱除去手法,および回帰モデルについて述べる。 0.79
Our approach explores the following combinations of ML models in selected working base (decimal or logarithm) with outlier removal and intra/extra joint optimisation; for example, we denote 提案手法では, 選択された作業ベース(Decimal, logarithm)におけるMLモデルと, 外乱除去と外乱関節最適化の組み合わせについて検討する。 0.71
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 11 of 27 27頁11頁。 0.75
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Figure 4: Extra joint optimisation schema for the EO-ML algorithm. 図4: EO-MLアルゴリズムのための余分な共同最適化スキーマ。 0.69
Figure 5: Intra joint optimisation schema for the IO-ML algorithm. 図5: IO-MLアルゴリズムの関節内最適化スキーマ。 0.80
as iLOF-LT-MLmodel a “joint optimisation of any available baseline ML model with LOF in a log-transform base within a cross-validation cycle (an intra optimisation)”. iLOF-LT-MLモデルとして、"クロスバリデーションサイクル(内部最適化)内のログ変換ベースでLOFと利用可能なベースラインMLモデルの結合最適化"がある。 0.73
As an observation, ORM has specific hyper-parameters but one parameter in common - the percentage of removed samples, which we assume to be outliers (ORperc). 観察の結果、ORMには特定のハイパーパラメータがあるが、共通するパラメータが1つあります。
訳抜け防止モード: 観察の結果、ORMには特定のハイパーパラメータがあるが、ひとつのパラメータが共通している。 外部(ORperc )であると仮定します。
0.65
Thus, to solve the ORM problem, we assume that the amount of outliers in each data set (ORperc) can take values up to 5%. したがって、ORM問題を解決するために、各データセット(ORperc)のアウトレイラの量が最大5%まで値を取ることができると仮定する。 0.81
EJO is performed only once and before the cross-validation cycle, but IJO is performed within each fold in a number EJOはクロスバリデーションサイクルの前に1回だけ実行されるが、IJOは各フォルダ内で数で実行される。 0.71
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 12 of 27 ORMAll traffic incidentsRegressionm odelORMRegressionmod elBest combinationof ORM and model hyper-parametersCros s-validation scoreTest scoreTrain setCross-validationc ycleTest setRandom SearchcycleGenerate hyper-parameters for the model and ORMFeatures:Hour of dayIncident SubtypeIncident Reporting SourceAffected Lanes…ORMRegressionmodelOR MRegressionmodelBest combinationof ORM and model hyper-parametersCros s-validation scoreTest scoreTrain setCross-validationc ycleTest setRandom SearchcycleGenerate hyper-parameters for the model and ORMAll traffic incidentsFeatures:Ho ur of dayIncident SubtypeIncident Reporting SourceAffected Lanes… 27ページ。 ORMAll traffic incidentsRegressionm odelORMRegressionmod elBest combinationof ORM and model hyper-parametersCros s-validation scoreTest scoreTrain setCross-validationc ycleTest setRandom SearchcycleGenerate hyper-parameters for the model and ORMFeatures:Hour of dayIncident SubtypeIncident Reporting SourceAffected Lanes…ORMRegressionmodelOR MRegressionmodelBest combinationof ORM and model hyper-parametersCros s-validation scoreTest scoreTrain setCross-validationc ycleTest setRandom SearchcycleGenerate hyper-parameters for the model and ORMAll traffic incidentsFeatures:Ho ur of dayIncident SubtypeIncident Reporting SourceAffected Lanes…
訳抜け防止モード: 27ページ。 ORMAllトラフィックインシデント RegressionmodelORMRe gressionmodelORMORMとモデルハイパー-パラメータの最も良い組み合わせ - Cross - Validation scoreTrain setCross - validationcycle setRandom SearchcycleGenerate hyper - parameters for the model and ORMFeatures : Hour of day Incident Subtype Incident Reporting SourceAffected Lanes ... ORMRegressionmodelOR MRegressionmodelORMの最も良い組み合わせは、ORMである。 And model hyper - parametersCross - validation scoreTrain setCross - validationcyclesetRa ndom SearchcycleGenerate hyper - parameters for the model and ORMAll traffic incidentsFeatures : Hour of day Incident Subtype Incident Reporting SourceAffected Lanes.
0.52
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
of times which is equal to the number of folds. 折りたたみの数と等しい時間です 0.35
Thus, ORperc has values in {0, 1 … 5%} for EJO, in {0, 1ࢧ5, … , 5ࢧ5} for IJO to ensure a comparable amount of removed samples from both approaches. したがって、ORperc は EJO の {0, 1 ... 5%} の値を持ち、IJO の {0, 1\5, ... , 5\5} は、両方のアプローチから同等の量のサンプルを除去することを保証する。
訳抜け防止モード: したがって、ORperc は EJO に対して {0, 1 ... 5 % } の値を持つ。 IJO の { 0, 1-5, ..., 5-5 } 両方のアプローチからサンプルを 取り除くために
0.82
Results for all combinations of the proposed approach inside the incident duration prediction framework are further provided in Section 5.3 for eLOF-ML models, iLOF-ML, iIF-ML, eIF-ML (e g eIF-ML is a “joint ML optimisation using IF optimised outside (e) of the cross-validation cycle”). ELOF-MLモデル、iLOF-ML、iIF-ML、eIF-ML(例えば、eIF-MLは、クロスバリデーションサイクルの外部(e)で最適化されたIFを用いたジョイントML最適化)の5.3節において、インシデント期間予測フレームワーク内で提案されたアプローチのすべての組み合わせに関する結果が提供される。 0.63
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 13 of 27 27ページ13頁。 0.75
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Data: Traffic incident reports (feature vector , duration vector ) Input: HPSm (Hyper-Parameter Space for Model), ORM: Outlier Removal Method, HPSor: Hyper Parameter Space for ORM, Model: ML regression model ࢠ { , ,  , , , }, Iters: Number Of Iterations (number of random search steps for hyper-parameter optimisation), Folds: number of folds for cross-validation, sample: function for random sampling from the hyper-parameter space, FoldIndexes: function to get sample indexes for training folds and test fold, extra: boolean variable stating the use of extra joint optimisation, intra: boolean variable stating the use of intra joint optimisation, split: function to split data set into two parts - train/test and validation parts Output: Predicted duration vector  , , ,  = (, );  = [] ;  = [] for  ࢎ 1.. Data: Traffic incident reports (feature vector , duration vector ) Input: HPSm (Hyper-Parameter Space for Model), ORM: Outlier Removal Method, HPSor: Hyper Parameter Space for ORM, Model: ML regression model ࢠ { , ,  , , , }, Iters: Number Of Iterations (number of random search steps for hyper-parameter optimisation), Folds: number of folds for cross-validation, sample: function for random sampling from the hyper-parameter space, FoldIndexes: function to get sample indexes for training folds and test fold, extra: boolean variable stating the use of extra joint optimisation, intra: boolean variable stating the use of intra joint optimisation, split: function to split data set into two parts - train/test and validation parts Output: Predicted duration vector  , , ,  = (, );  = [] ;  = [] for  ࢎ 1..
訳抜け防止モード: データ : 交通インシデントレポート(特徴ベクトル, 期間ベクトル, 期間ベクトル)入力 : HPSm(Hyper-パラメータ空間・モデル) ORM : 外乱除去法HPSor : ORMのためのハイパーパラメータ空間 モデル : ML回帰モデル > { >, >, >, >, > Iters : Number of Iterations(ハイパーパラメータ最適化のためのランダム探索ステップ数)、Folds : Cross - Validation, sample : function for random sample from the hyper - parameter space, FoldIndexes : テストフォールドとテストフォールドのトレーニングのためのサンプルインデックスを取得する関数。 内部 : boolean変数 関節内最適化の使用,分割 : データセットを2つの部分に分割する関数。 , ,  = (,  ) ;  = [ ] ;  = [ ] for  ࢎ 1 ..
0.69
 do // temporary cross-validation prediction vector ‐--- //仮交差評価予測ベクトル 0.41
   ࢎ ( )    ࢎ (  )  = [] ;  = [] ;  = 0 ; if extra then for  ࢎ 1..    ࢎ ( )    ࢎ (  )  = [] ;  = [] ;  = 0 ; if extra then for  ࢎ 1.. 0.41
  do はあーあーあーあーあーあー 0.18
 = ORM(,   ) ; ,  =  (x,k);  ] ; _ ࢎ [ ], ..., [  ] ; _ ࢎ [ ], ..., [ _ ࢎ [ ], ..., [  ] _ ࢎ [ ], ..., [  ] if intra then  = (_,   ) ;  _(,   ) ;  ࢎ _(,  ,  _ ࢎ (, ) ;  = ORM(,   ) ; ,  =  (x,k);  ] ; _ ࢎ [ ], ..., [  ] ; _ ࢎ [ ], ..., [ _ ࢎ [ ], ..., [  ] _ ࢎ [ ], ..., [  ] if intra then  = (_,   ) ;  _(,   ) ;  ࢎ _(,  ,  _ ࢎ (, ) ; 0.45
0 0 0 0  = ;   end ߰߰ =  ;  ࢎ (,  ) ;  = [] ; ߰  ߰ =    ߰  ߰ =    _(, ߰  ߰) 0 0 0 0  = ;   end ߰߰ =  ;  ࢎ (,  ) ;  = [] ; ߰  ߰ =    ߰  ߰ =    _(, ߰  ߰) 0.43
end  = (,  =߰ ߰) [0] ; end  = (,  =߰ ߰) [0] ; 0.45
 = [; ] ;  = [; ] ; 0.42
 = (, ߰  ߰) ;  = (, ߰  ߰) ; 0.43
// indexes of train samples // indexes of validation samples // scoring results // 列車サンプルのインデックス // 検証サンプルのインデックス // スコアリング結果 0.84
// if EO then filter the outliers from the feature vector EO の場合、フィーチャーベクトルからoutlier をフィルタリングします。 0.74
// array of feature vector samples for training // array of duration vector samples for training // トレーニング用特徴ベクトルサンプルの配列 // トレーニング用持続ベクトルサンプルの配列 0.83
) ; ) ; 0.42
// if IO then filter outliers // random hyper-parameter initialisation // fitting the model to the filtered train set // performing predictions if IO then filter outliers // random hyper-parameter initialization // fit the model to the filtered train set // performing predictions 0.48
// scoring the accuracy of predictions using performance metric // Initializing hash-array // populating hash-array with resulting metric // performance metrics // initializing hash-array // populating hash-array with result metric
訳抜け防止モード: performance metric // initializing hash による予測精度の評価 - array // populating hash - 結果のメートル法で配列する
0.73
// collecting results for sampled hyper-parameters into array // サンプルハイパーパラメータの配列への収集結果 0.75
// selecting the best combination of hyper-parameters // ハイパーパラメータの最適な組み合わせを選択する 0.67
 ,   ࢎ _(,   ࢎ (, ) ; Algorithm 1: Intra and extra joint optimisation algorithm with outlier removal and ML regression modelling. アルゴリズム1:外周除去とML回帰モデリングを備えた内部および余剰結合最適化アルゴリズム。
訳抜け防止モード:  ,   ࢎ _(,   ࢎ (, アルゴリズム1 : 異常値除去とml回帰モデルを用いたイントラおよびイントラジョイント最適化アルゴリズム。
0.76
// applying ORM to the training set // トレーニングセットにORMを適用する 0.88
// performing predictions ,  // 予測を行う ,  0.56
) Grigorev et al : Preprint submitted to Elsevier ) Grigorev et al : Elsevierに提出されたプレプリント 0.60
Page 14 of 27 27ページ14 0.60
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
The algorithm represents the modified cross-validation cycle within the randomised hyper-parameter tuning procedure. アルゴリズムは、ランダム化されたハイパーパラメータチューニング手順における修正されたクロスバリデーションサイクルを表す。 0.56
We use multiple iterations (in fact, attempts) to find optimal parameters both for the selected model (HYPm) and the outlier removal method (HYPor). 我々は、選択されたモデル(HYPm)と外れ値除去方法(HYPor)の両方に最適なパラメータを見つけるために、複数の反復(実際、試み)を用いる。 0.79
On every iteration, we sample hyper-parameter sets from hyper-parameter spaces. イテレーションごとにハイパーパラメータ集合をハイパーパラメータ空間からサンプリングします。 0.70
Then, if extra joint optimisation selected, an outlier removal procedure performed using all the data before the fold-rotation cycle. そして、余分なジョイント最適化が選択された場合、折り返しサイクルの前に全データを用いて異常除去処理を行う。 0.71
Then we perform an n-fold cross-validation procedure, where we split data set into training and testing parts (by preserving ratio between them at F-1:1, where F is the number of folds) according to sequentially generated indexes (e g in case of 500 data points, fold 0 will represent indexes from 0 to 100 for the testing set, rest of the folds - indexes from 100 to 500 for the training set, fold 1 - 100-200 for the testing set, rest - 0-100 and 200-500 for the training set, etc). 次に、n-foldクロスバリデーション(n-fold cross-validation)を行い、データセットを(f が折りたたみ数である f-1:1 でそれらの比率を保存して)連続的に生成されたインデックスに従ってトレーニングとテストの部分に分割する(例えば、500 データポイントの場合、fold 0 はテストセットの 0 から 100 までのインデックス、残りはトレーニングセットの 100 から 500 までのインデックス、テストセットの fold 1 - 100-200、トレーニングセットの rest - 0-100 と 200-500)。 0.85
Then, if intra joint optimisation is selected within the cross-validation cycle, we perform outlier removal with sampled hyper-parameters using only the train subset within each train-test split. そして, クロスバリデーションサイクル内で関節内最適化が選択された場合, 各列車試験スプリット内における列車サブセットのみを用いて, 標本化ハイパーパラメータによる外周除去を行う。 0.64
Hyper-parameters for ORM include the percentage of samples to be removed. ORMのハイパーパラメータには、削除すべきサンプルの割合が含まれている。 0.53
After removing outliers, we train a model using a train set and make predictions on the test set. 外れ値を取り除くと、列車のセットを使ってモデルをトレーニングし、テストセットで予測します。 0.71
Allarrayswithactuala ndpredictedsamplesco llectedtobeusedafter thefold-rotationcycl eforthemodelaccuracy estimation using specified metric. 特定の測定値を用いたアレー非接触および予測されたサンプレスコレクトトベウスフォールド・ローテーションサイクルモデル精度推定 0.24
Since we are selecting test folds in order and making predictions on them, the predicted duration vector will be composed of prediction results composed of these folds. テストフォールドを順番に選択し、予測を行うので、予測された継続ベクトルは、これらのフォールドからなる予測結果からなる。 0.66
So, first, we collect the resulting metric together with hyper-parameters, actual and predicted labels. まず、結果のメトリクスをハイパーパラメータ、実際のラベル、予測ラベルとともに収集する。 0.57
To collect data we use hash-array, which is represented as an array, where each element can be addressed by name and not by index as for conventional array. データ収集には、配列として表現されるhash-arrayを使用しています。
訳抜け防止モード: データを収集する 配列として表現されるハッシュ-配列を使用します。 ここでは、各要素は名前で対応でき、従来の配列のようにインデックスで対応できない。
0.65
Then we perform the sorting procedure, which will order solutions according to the resulting metric, where we select the best combination of hyper-parameters. 次にソート処理を行い、その結果のメトリックに従って解を順序付けし、ハイパーパラメータの最適な組み合わせを選択する。 0.78
Furthermore, finally, we obtain the predicted duration vector by filtering data using the ORM method, training model on the train/test part and making predictions on the validation part. さらに、orm法を用いてデータをフィルタリングし、列車/試験部でのトレーニングモデルを作成し、検証部で予測することで、予測持続時間ベクトルを得る。 0.75
4. Incident classification results This section details the results of the first layer of the bi-level prediction framework related to the classification prediction findings, either via a standard binary classification with varying threshold analysis or via a multi-class classification enhanced by outlier removal procedures. 4. インシデント分類の結果 この節では、分類予測結果に関連するbiレベル予測フレームワークの第1層の結果を、しきい値解析の異なる標準バイナリ分類か、外れ値除去手順によって強化されたマルチクラス分類を通して詳述する。 0.86
4.1. Binary incident classification results using varying split thresholds The first classification problem that we address is to predict whether an incident duration will be lower or greater than a selected threshold (we classify short-term versus long-term traffic incidents), which can then be used to supply the initial assessment needs of the traffic management centre (TMC) under fast decision times. 4.1. 分割しきい値の異なるバイナリインシデント分類結果 まず、選択されたしきい値よりもインシデント期間が低いか大きいか(短期と長期の交通インシデントを分類する)を予測し、高速な意思決定時間で交通管理センター(TMC)の初期評価ニーズの供給に使用できる。
訳抜け防止モード: 4.1. 異なる分割しきい値を用いたバイナリインシデント分類結果 最初の分類問題は、インシデント期間が選択されたしきい値よりも低いか大きいかを予測することである。 (短期・長期の交通事故を分類する。) 使うことができます 交通管理センター(tmc)の初期評価ニーズを迅速な決定時間で提供する。
0.58
For example, an operational clearance threshold for the Sydney TMC has been currently established at 45min based on previous operational field experience; however, choosing a fixed threshold for classification can have a significant impact on the results of any prediction algorithm and is highly dependent on the incident duration distribution chart (as represented in Fig Fig. 1-g, h, i). 例えば、シドニーtmcの運用クリアランス閾値は、以前の運用現場の経験に基づいて45分に設定されているが、分類の固定しきい値の選択は、任意の予測アルゴリズムの結果に重大な影響を与え、インシデント期間分布チャートに大きく依存している(図1-g,h,i)。
訳抜け防止モード: 例えば、シドニーTMCの運用クリアランス閾値は以前の運用現場経験に基づいて45分に設定されている。 分類のための一定のしきい値を選択する 予測アルゴリズムの結果に大きな影響を与えます インシデント期間の分布図に大きく依存しています(例えば) Fig Fig . 1-g, h, i で表される。
0.80
Fig 2 showcases the data split for the binary classification problem where the threshold  (dashed red line) is varying according to the two set-ups mentioned above: every 5 minutes ( ࢠ {20, 25, … , 70}). 図2は、上記の2つのセットアップに従ってしきい値が変化している二項分類問題に対して、5分ごとに分割されたデータを示す。 0.49
We name as Subset A all incident duration records which are lower or equal to , (if  ࣘ ), and as Subset B all the incident duration records which are higher than  (if  > ). 私たちは、サブセットAと名づける:全てのインシデント持続時間記録は、より低いか等しいか、(もし s )、そして、サブセットBとして、すべてのインシデント持続時間記録は、(if s > s )より高い。 0.61
Based on the variation of , the size of Subsets A and B will have an impact on the prediction algorithms and this impact is further quantified. この変化に基づいて、サブセットAとBのサイズは予測アルゴリズムに影響を与え、この影響はさらに定量化される。
訳抜け防止モード: s の変動に基づいて、A と B のサブセットのサイズが予測アルゴリズムに影響を及ぼす。 この影響はさらに定量化されています
0.83
Figure 6: Incident duration classification using varying thresholds for 図6: 異なるしきい値を用いたインシデント時間分類 0.89
a) data set AR a)データセットAR 0.73
b) data set M c) data set SF. b)データセットM c)データセットSF。 0.76
The red percentage above each set of ML results indicate the percentage split of Subset A and B for that particular . mlの結果のそれぞれの集合の上の赤い割合は、その特定の s に対する部分集合 a と b の比率である。 0.65
The results of the binary classification approach of incident durations using a varying split threshold are detailed in Fig. 6 (for a 5-minutes frequency split) across all data sets. 異なる分割しきい値を用いたインシデント継続時間のバイナリ分類アプローチの結果は、全データセットにわたって第6図(5分間隔分割)に詳述されている。 0.86
More specifically, Fig 6 presents the F1 results obtained for 具体的には、fig 6 は f1 の結果を示す。 0.67
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 15 of 27 XGBoostXGBoostXGBoos ta)b)c) 27頁15頁。 XGBoostXGBoostXGBoos ta)b)c) 0.58
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
each ML model that we have developed (XGBoost, LR, LGBM, GBDT, kNN, RF); we observe that other performance metrics have been calculated such as Accuracy, Precision and Recall and these are provided in the Appendix A). 開発したMLモデル(XGBoost, LR, LGBM, GBDT, kNN, RF)は, 精度, 精度, リコールなどの他のパフォーマンス指標が計算され, それらがAppendix Aで提供される。
訳抜け防止モード: 各MLモデル XGBoost, LR, LGBM, GBDT, kNN, RF)を開発した。 私たちはそれを観察し 精度、精度、リコールなどの他のパフォーマンス指標が計算された そしてこれらは Appendix A で提供されている。
0.80
For example, Fig 6a) showcases the classification results for data set AR in which the blue bar represents the F1-result of the XGBoost classifier (F1=0.28) when the data set has been split in Subset A containing incidents with a duration less than 20min (32% of all incident records fall in this subset) and Subset B containing incidents with duration higher than 20min (the rest of 68% of incident records). 例えば、図6a)では、データセットが20分未満のインシデントを含むサブセットAと20分未満のインシデントを含むサブセットB(インシデント68%のインシデント)で分割された場合、ブルーバーがXGBoost分類器(F1=0.28)のF1-Resultを表すデータセットARの分類結果を示している。
訳抜け防止モード: 例えば、図6aは、XGBoost分類器(F1=0.28 )のF1-resultを表す青いバーを表すデータセットARの分類結果を示している。 データセットはサブセットAに分割された 20分未満のインシデントを含むこと(すべてのインシデント記録の32%がこのサブセットに該当する) そして、20分未満のインシデントを含むサブセットB(インシデント記録の68%の残り)。
0.79
Therefore, the percentage numbers written in red above each ML result represent the percentage of records lower than the  threshold chosen for this experiment. したがって、各ML結果の上に赤で書かれたパーセンテージ数は、この実験で選択された閾値より低いレコードのパーセンテージを表す。 0.73
The split around  = 20 is not ideal given the data imbalance (32% versus 68%) and the low F1 score; therefore further variations have been undertaken which have reported an increased  1 = 0.8 for  = 45. データの不均衡(32%対68%)と低いF1スコア(英語版)を考えると、n = 20 の割当は理想的ではない。
訳抜け防止モード: データの不均衡 (32 % 対 68 % ) を考えると、 s = 20 の周りの分割は理想的ではない。 低いf1スコア ; それゆえ、さらなる変種が行われており、それゆえ 0.8 = 45 に対して 0.8 が増加すると報告されている。
0.60
According to these results, if we use the best performing binary classifier, we need to select a threshold between 35 and 50 minutes because: これらの結果によると、ベストパフォーマンスなバイナリ分類器を使用する場合、35分から50分以内にしきい値を選択する必要があります。 0.68
a) it will reduce the imbalance between classes (and thus reduce the effects of imbalanced classification, which is vital for modelling when using a small data set); a) クラス間の不均衡を減少させる(従って、小さなデータセットを使用する場合に必要となる不均衡な分類の効果を減少させる)。 0.84
b) there is only a tiny improvement in F1-score after  > 40min; b) F1スコアは > 40min の後にわずかに改善されている。 0.73
c) it will be a reasonable split for short incidents lower in terms of field operation management. c) フィールド運用管理の面では、短いインシデントに対して合理的な分割となる。 0.78
An exciting finding is revealed for  ࢠ {20, 25}min: we record an overall lousy performance across all ML models in all data sets (F1-score less than 0.5) while some did not even take effect, such as GBDT; for this reason, we exclude from consideration any thresholds which provide an F1-score of less than 0.5. 私たちはすべてのデータセットですべてのmlモデル(f1-score 0.5未満)で、全体的な粗末なパフォーマンスを記録していますが、gbdtのような効果をもたらさないものもあります。
訳抜け防止モード: すべてのデータセット (f1-score 0.5 未満) において,すべての ml モデルにおいて,全体的な粗末な性能が記録されている。 gbdtなど、効果をもたらさなかったものもいました ; この理由から, f1-score が 0.5 未満のしきい値については考慮しない。
0.76
Furthermore, we set our minimum acceptable F1-score to 0.75, and any model performing lower than this threshold will not be considered for further optimisation. さらに、最小許容値F1スコアを0.75に設定し、この閾値より低いモデルでは、さらなる最適化は考慮しない。 0.77
By analysing all sub-figures in Fig 6 which provide both a good F1 score and class balance, we conclude that the optimal thresholds for the binary classification problem are the following: 優れたF1スコアとクラスバランスを提供する図6のすべてのサブフィギュアを分析することにより、二項分類問題の最適しきい値が次のようになると結論付けている。 0.75
a)  = 40min for the arterial road network in Sydney (Fig. 6a:  1 = 0.79andaclassbalance of66%forsmallinciden tduration), a)シドニーの幹線道路網の40分(図6a:1 = 0.79andaclassbalance of66%forsmallinciden tduration) 0.70
b)  = 45minforthemotorwayn etworkinSydney, (Fig. 6b:  1 = 0.75, class balance = 65%) and b)45minforthemotorwa ynetworkinsydney(図6b: 1 = 0.75,クラスバランス = 65%)
訳抜け防止モード: 図6b : 1 = 0.75 である。 class balance = 65 % ) と
0.53
c)  = 45min for the San Francisco network (Fig. 6c:  1 = 0.83, class balance=55%). c)サンフランシスコ・ネットワークの45分(図6c:1 = 0.83,クラスバランス=55%)。 0.72
The other important finding is the cases when  > 45min which present a significant improvement across all models on all performance metrics, with the best result being the one when Subset A incorporates all incidents lower than 70min (which represents the majority of incidents); this is easily explained by the fact that we use almost all the entire data set for training of the models. もうひとつの重要な発見は,すべてのパフォーマンス指標において,すべてのモデルに大幅な改善が加えられた > 45min である。最もよい結果として,Subset A が 70min 未満のインシデント(インシデントの大部分を表す)をすべて組み込んだ場合である。
訳抜け防止モード: もう1つの重要な発見は > 45min の場合である。 すべてのパフォーマンス指標で、すべてのモデルで大幅に改善されています。 一番良い結果が サブセットAは70分未満のインシデント(インシデントの大部分を表す)を組み込む ); これは、容易に説明できる事実である。 ほぼ全てのデータセットを モデルの訓練に使用しています
0.77
However, the binary classification can be a rough estimate. しかし、二項分類は大まかに見積もることができる。 0.72
If TMCs need a higher prediction precision instead of incidents less than 45min or higher (which can last up to several days), then several regression and multi-class classification models are needed to provide more precise predictions. もしtmcが45分以下のインシデント(数日持続する可能性がある)よりも高い予測精度を必要とするなら、より正確な予測を提供するために、いくつかの回帰分類モデルとマルチクラス分類モデルが必要である。 0.69
These will be further detailed in Sections 6 and 7. 詳細は第6条および第7条で詳述する。 0.70
We will further use the detected optimal thresholds for each data set to perform the split between subset A and B in various scenarios of the incident duration regression problem. さらに、検出された各データセットの最適しきい値を用いて、インシデント時間回帰問題の様々なシナリオにおいて、サブセットAとBの分割を行う。 0.74
Tree-based models yield similar results. ツリーベースモデルも同様の結果をもたらす。 0.61
However, in multiple cases (e g 35, 45, 50, and 60-minute thresholds for data set AR, 25, 30, 40, 60-minute thresholds for data set M), XGBoost produces a slightly better result than other tree-based models. しかし、複数のケース(例えば、データセットARでは35、45、50、60分の閾値、データセットMでは25、30、40、60分の閾値)では、XGBoostは他のツリーベースモデルよりも若干良い結果が得られる。 0.68
Thus, we are selecting XGBoost as the best model for the incident duration classification. したがって、入出力時間分類の最良のモデルとしてXGBoostを選択している。 0.75
4.2. Classification with outlier removal After selecting the optimal thresholds for binary classification, we further assess the effect of: 4.2. 二分分類の最適しきい値を選択した後、外れ値除去による分類をさらに評価する。 0.56
a) low-duration outliers (LDO) (which we define as reports of incidents with zero or less than a few minutes duration) and a)ローデューレーション・アウトリー(LDO)及び(これは、ゼロまたは数分未満のインシデントの報告と定義する)
訳抜け防止モード: a) 低い期間の外れ値(LDO) 我々は事件の報告として定義し、その報告は数分以内である)
0.78
b) highduration outliers (HDO) as in the San-Francisco dataset, by trying different outlier removal procedures, as depicted in Fig Fig 7. b) 図7に示すように、サンフランシスコのデータセットのようなハイデューレーション・アウトレイア(HDO)は、異なるアウトレイラ除去手順を試みている。 0.75
Figure 7: Outlier removal for a) data set AR 図7: 外部削除 a)データセットAR 0.65
b) data set M c) data set SF b)データセットM c)データセットSF 0.79
For example, an LDO Threshold of 1min represents removing outliers below 1 minute (e g 0min) and the per- 例えば、1min の LDO Threshold は 1 分以下 (e g 0min) と per- を除去する。 0.78
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 16 of 27 XGBoostXGBoosta)b)XG Boostc) 27頁16頁。 XGBoostXGBoosta)b)XG Boostc 0.56
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
centage above each removal test. それぞれの除去試験より上です 0.57
For example, 99% indicates the number of samples remaining after such removal. 例えば、99%は除去後に残ったサンプルの数を示している。 0.82
Removing these outliers is essential since it represents errors in the incident reporting and may affect the accuracy of prediction. これらの外れ値を取り除くことは、インシデントレポートのエラーを表し、予測の精度に影響する可能性があるため、不可欠である。 0.57
For example, Fig 7a represents the LDO removal from the data set AR, up until 10min reported incident durations; by removing these outliers, we observe that the F1-score does not fall below the acceptable threshold of 0.75 until 5min (this indicates that removing all accidents reported with a duration of 0 or lower than 5min does not reduce the model performance. 例えば、図7aはデータセットarからのldo除去を表し、10分までのインシデント期間を報告し、これらの外れ値を取り除くことで、f1-scoreは許容しきい値0.75から5分まで低下しない(これは、0または5min以下の期間で報告されたすべての事故がモデル性能を低下しないことを示している)。 0.70
Therefore, we applied an LDO removal for all traffic incidents for this data set with a duration below 5min. そこで本研究では,5分以下で設定した全トラフィックインシデントに対してLDO除去を適用した。 0.67
For thedata set M, the effect of LDO outlier removal is more significant, as depicted in Fig 7b. データ集合Mでは、図7bに示すように、LDO外乱除去の効果がより重要である。 0.76
This dataset contains a lot of incidents with durations of 0 and 1 minute (which represents almost 15% of the entire data set); by removing these, we observe that the highest F1-score drops down to 0.74 across all ML models, which falls below the acceptable threshold for a good prediction accuracy). このデータセットには、0と1分間のインシデント(データセット全体の約15%に相当する)が多数含まれており、これらを取り除くことで、高いF1スコアがすべてのMLモデルで0.74に低下し、適切な予測精度を得るために許容しきい値以下になる。 0.82
Therefore, we decide to remove only incidents with durations of 0min or 1min from this dataset. したがって、このデータセットから0minまたは1minのインシデントのみを取り除くことにしました。 0.62
Lastly, in the case of the San-Francisco dataset, we have a completely different range of outliers since there are no incidents reported with a duration of fewer than 17 minutes (see Fig 7c). 最後に、san-franciscoデータセットの場合は、17分未満のインシデントが報告されていないため、全く異なる範囲の外れ値があります(図7cを参照)。 0.60
There are multiple incidents cleared off at around 29min and 360min (as represented as well in Section 2, which can be identified as HDO. 約29分と360分(第2節にも記載されている)で複数の事件が発覚し、HDOと同一視できる。 0.63
However, by removing these HDO data points from the ML model training (representing almost 38% of all incident records), we observe a depreciation of the F1 score from 0.85 to 0.76 for XGBoost, while some models dropped to lower values below 0.7). しかし、これらのHDOデータポイントをMLモデルトレーニングから取り除くことで(すべてのインシデントレコードの38%)、F1スコアが0.85から0.76に低下し、XGBoostは0.7以下に低下するモデルもある。 0.70
Therefore, the removal of HDO for the San Francisco data set can not be adopted due to several reasons: したがって、サンフランシスコデータセットに対するHDOの削除は、いくつかの理由により適用できない。 0.72
1) we cannot separate “rounded” durations from actually reported durations, 1)実際に報告された期間から「丸い」期間を分けることはできない。 0.58
2) the amount of these values is almost half of the data, which becomes property of the dataset, 2)これらの値の量は、データセットのプロパティとなるデータのほぼ半分である。 0.82
3) these outliers still convey information related to the separation between short-term and long-term traffic accidents and 3)これらの異常者は、短期交通事故と長期交通事故の分離に関する情報を伝達し続けている。 0.57
4) all models perform better when using the entire data set than with outlier removal, which makes the ORM procedure in this case non-necessary. 4) すべてのモデルは、オフラヤ削除よりもデータセット全体を使用する場合の方がパフォーマンスが良く、この場合、ORMプロシージャは不要になります。 0.71
Finally, we observe that the outlier procedure is highly related to the specificity of the data set and the incident area location, not by making default assumptions on either LDO or HDO. 最後に,LDO や HDO に対してデフォルトの仮定を行うのではなく,データセットとインシデント領域の位置の特異性に高い関連性があることを観察する。 0.68
4.3. Multi-class classification While binary classification can provide fast insights in the overall incident duration, traffic incidents can have more precise duration definition and can be split (based on the histogram profiling) into short-term, mid-term, long-term. 4.3. マルチクラス分類 バイナリ分類は、インシデント期間全体の迅速な洞察を提供するが、トラフィックインシデントの定義はより正確になり、(ヒストグラムのプロファイリングに基づいて)短期、中期、長期に分けられる。 0.53
In this case one needs to solve a multi-class classification problem which can contain 3 equally-sized classes (based on duration percentiles of almost 33% from each data set). この場合、等サイズの3つのクラス(各データセットから約33%の持続パーセンタイルに基づいて)を含むことができる多クラス分類問題を解く必要がある。 0.82
We use F1-macro to assess the performance of a multi-class classification, defined as the unweighted average of class-wise F1-scores: f1-macroを用いて,クラス別f1-scoreの非重み付け平均として定義されるマルチクラス分類の性能を評価する。
訳抜け防止モード: マルチクラス分類の性能評価にf1-macroを用いた。 unweighted average of class - wise f1-scores :
0.86
F1-macro = 1 F1-macro = 1 0.34
(11) where i is the class index and N is the number of classes. (11) i がクラスインデックスで n がクラスの数です。 0.62
Table 2 contains the F1-macro scores across all three data sets for a 3-class prediction problem which can be calculated across each data set independently. 表2は、3つのデータセットにまたがるF1マクロスコアを含み、各データセットを独立して計算できる3クラス予測問題である。 0.70
For example, 1 for data set AR in Sydney contains incidents between 0 − 24min, while 1 for the SF data set contains incidents between 0 − 30min; similarly, the 3 class for the SF data set contains substantial incidents which can reach up to 2,715min (45h) (this is consistently larger than 710min or 595min in Australia). 例えば、シドニーのデータセット ar の 1 は 0 − 24min のインシデントを含み、sf のデータセットの 1 のインシデントには 0 − 30min のインシデントが含まれている。
訳抜け防止モード: 例えば、シドニーのデータセットARでは、0 − 24minのインシデントがある。 一方 SF データセットの t1 は 0 − 30min の間のインシデントを含む 同様に、SFデータセットの t3 クラスは、重大なインシデントを含む。 最大で2,715分 (45h) に達することができる(オーストラリアでは710分または595分より一貫して大きい)。
0.63
The F1-macro score is aggregated across all classes, and a low value (below 0.5) indicates that we cannot use a 3-class split for the data set AR (F1-macro=0.35) and M (F1-macro=0.46), but we can do so for the data set SF (F1-macro=0.72). F1-macroスコアはすべてのクラスに集約され、低値(0.5以下)はデータセットAR(F1-macro=0.35)とM(F1-macro=0.46)では3クラススプリットは使用できないことを示しているが、データセットSF(F1-macro=0.72)ではそうすることができる。 0.69
The significant difference between these data sets is the number of records (584 incident records for the data set AR versus 8,754 records for the data set SF), which may affect model performance. これらのデータセット間の大きな違いは、モデル性能に影響を与える可能性のあるレコード数(arデータセットのインシデントレコード584とsfデータセットのレコード8,754)である。 0.87
The precision of predictions on the data set indicates how many classes we can have to distinguish traffic incidents by duration. データセット上の予測の精度は、トラフィックインシデントを持続時間単位で識別するクラス数を示しています。 0.68
However, each data set’s specificity seems to dictate the best classification approach to be done and further justifies the need for a more refined regression prediction approach. しかし、各データセットの特異性は、実行すべき最善の分類アプローチを決定し、より洗練された回帰予測アプローチの必要性をさらに正当化するように見える。 0.73
ࢣ =0 F1-score f1-score は f1-score である。 0.25
 [0 − 33%]1 Dataset Data set AR 0-24 min Data set M 0-24 min Data set SF 0-30 min  データセット ar 0-24min データセット m 0-24min データセット sf 0-30min 0.55
[33 − 66%]2 25-44 min 25-54 min 31-71 min 【33-66%】225-44分25-54分31-71分 0.60
[66 − 100%]3 44-710 min 54-598 min 72-2,715 min [66 − 100%]~3 44-710 min 54-598 min 72-2,715 min 0.39
F1-macro(3-class) 0.35 0.46 0.72 F1-macro(3-class) 0.35 0.46 0.72 0.25
F1 (2-class) 0.79 0.74 0.85 F1(2級) 0.79 0.74 0.85 0.27
Table 2 Multi-class classification results for equally-sized 3-class split 表2 等サイズの3クラス分割のための多クラス分類結果 0.66
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 17 of 27 27ページ17頁。 0.77
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
5. Incident duration prediction using regression: results Thefinalobjectiveofthebi- levelframeworkistopr edictwithanaccuracya ttheminutelevelthele ngthofafreshly reported incident, regardless of its previous classification as either short, medium or large. 5. 回帰による事象持続期間予測:結果 Thefinalobjectiveoft hebi-levelworkistopr edictwithanaccuracya tthe minutelevelthelength ofafreshly reported incident, 以前の分類が短いもの、中型のもの、大きいもののいずれかである。 0.49
Therefore, the second step of the bi-level prediction framework is to develop more advanced regression models that can adjust to each data set independently and over-perform baseline ML models previously used to solve classification problems. したがって、二段階予測フレームワークの2番目のステップは、以前に分類問題を解くために使用されていたベースラインMLモデルと、各データセットを独立に調整できるより高度な回帰モデルを開発することである。 0.70
When training such regression models, a significant step is the size of the data set and the distribution of the target variable (incident duration). このような回帰モデルをトレーニングする場合、重要なステップはデータセットのサイズとターゲット変数(インシデント継続時間)の分布である。 0.80
Due to the long tail distribution of incident duration and the class imbalance problem previously identified, we need to design and construct various regression models capable of learning from various types of data sets to make accurate predictions. インシデント時間の長さの長いテール分布と以前に特定されたクラス不均衡問題のために、我々は、正確な予測を行うために、様々な種類のデータセットから学習できる様々な回帰モデルを設計し、構築する必要がある。
訳抜け防止モード: 入室期間の長い尾の分布と、予め特定したクラス不均衡の問題により。 様々な種類のデータセットから学習できる様々な回帰モデルの設計と構築が必要です 正確な予測をするのです
0.83
However, with limited information(small data setsize), the prediction resultscan be skewed(this effect of prediction skewing will be further discussed). しかし、限られた情報(小さなデータセット)では、予測結果は歪むことができる(この予測スキーイングの効果は、さらに議論される)。 0.71
This section first presents the regression results obtained across severalscenariosofmo deltraining,validati onandtesting,followe dbyresultsofourpropo sedIntra-ExtraOptimi sation algorithm applied over all baseline ML models. 本節ではまず,すべてのベースラインmlモデルに適用したモデルトレーニング,検証およびテスト,追従byresultsofourpropos edintra-extraoptimiz ationアルゴリズムの回帰結果について述べる。 0.57
5.1. Regression scenarios results and comparison In order to find the best set-up that works for traffic incident prediction in TMCs, we test various regression scenarios (detailed previously in Section 3.5), which show the extrapolation performance for different ML methods. 5.1. 回帰シナリオの結果と比較 TMCのトラフィックインシデント予測に最適なセットアップを見つけるために、さまざまな回帰シナリオ(セクション3.5に先述)をテストし、異なるMLメソッドの補間性能を示す。 0.53
The outlier removal procedures (LDO, HDO) together with the classification thresholds (which separate short-term and long-term duration of incidents) are selected as described in Section 4.1-Section 4.2. 第4.1-Section 4.2に記載されているように、外乱除去手順(LDO,HDO)と分類しきい値(インシデントの短期及び長期の分離)が選択される。 0.75
The primary purpose of this section is to recommend the best scenario set-up for model training and validation when parts of the data set might be hidden. この節の主な目的は、データセットの一部が隠されている場合、モデルトレーニングと検証のための最良のシナリオのセットアップを推奨することである。 0.72
Table 3, Table 4 and Table 5 present the MAPE results for all 7 scenarios (All-to-All, AtoA, AtoB, BtoB, BtoA, AlltoA AlltoB) using all the Baseline ML models across all three data sets (and a dedicated winning regression model across each scenario - last column). テーブル3、テーブル4、テーブル5は、すべての7つのシナリオ(All-to-All、AtoA、AtoB、BtoB、BtoA、AlltoA AlltoB)のMAPE結果を示す。
訳抜け防止モード: 表3、表4、表5は7つのシナリオ(すべてから - すべて)のMAPE結果を示す。 AtoA、AtoB、BtoB、BtoA、AlltoA AlltoB )は、3つのデータセットすべてにわたるベースラインMLモデル全てを使用します。 そして、各シナリオ(最後の列)にまたがる専用の勝利回帰モデルです。
0.74
Overall, XGBoost seems to be the best regression model in a majority of scenarios across data set AR and M (Table 3,Table 4): 全体として、XGBoostは、データセットARとMのほとんどのシナリオにおいて、最高の回帰モデルであるようだ(Table 3, Table 4):。 0.73
1) the improvement from using XGBoost shows the lowest MAPE for scenario AtoA of 49.11 and 67.92 correspondingly (predicting short term incidents only using only short term training information), 1)XGBoostの使用による改善は、シナリオAtoAが49.11と67.92と最も低いMAPEを示す(短期訓練情報のみを用いて短期的なインシデントを予測する)。 0.75
2) XGBoost also the best performing model for All-to-All regression (59.36% and 85.98% MAPE correspondingly). 2) xgboost は全回帰 (59.36% と 85.98% の mape に対応する) で最高の性能モデルでもある。 0.53
The main difference between LGBM and XGBoost results is that LGBM struggles with extrapolation to lower values as seen in scenario B-to-A for all data sets: 292.68% vs 77.66% MAPE for data set A, 663.12% vs 180.77% MAPE for data set M, 166.06% vs 32.62% MAPE for data set SF for LGBM and XGBoost correspondingly. lgbm と xgboost の主な違いは、すべてのデータセットのシナリオ b-to-a に対して、lgbm は外挿に苦しむことである: 292.68% 対 77.66% データセット a の mape 、 663.12% 対 180.77% データセット m の mape 、 166.06% 対 32.62% データセット sf for lgbm と xgboost の mape である。 0.62
In the SF data set, the LGBM is the best performer reaching a MAPE of 9.34% for the AtoA scenario (which is almost 10 times better than the same scenario for the M data set) and 33.16% MAPE for All-to-All scenario. sfデータセットでは、lgbmはatoaのシナリオ(mデータセットのほぼ10倍のシナリオ)で9.34%のmapeに到達し、全シナリオで33.16%のmapeに到達している。
訳抜け防止モード: SFデータセットでは、LGBMはAtoAシナリオで9.34%のMAPEに達する最高のパフォーマーである。 Mデータセットと同じシナリオよりも約10倍よい ) と 33.16 % MAPE for All - to - all scenario である。
0.81
This is a significant improvement that reveals what model is adapting to what data set, but most importantly, that each data set reacts differently to the seven scenarios. これは、データセットにどのモデルが適応しているかを示す重要な改善だが、最も重要なのは、各データセットが7つのシナリオに対して異なる反応をすることだ。
訳抜け防止モード: これは大きな改善です データセットにどんなモデルが適応しているかを明らかにします しかし 最も重要なことは それぞれのデータセットは 7つのシナリオに対して異なる反応をします
0.76
In the following, we provide a summarised comparison across a selection of few scenarios and their performance. 以下の例では、いくつかのシナリオとそれらのパフォーマンスを総合的に比較する。 0.68
Model AlltoAll AtoA AtoB BtoA BtoB AlltoA AlltoB Model AlltoA AtoB BtoA BtoB AlltoA AlltoB 0.37
LGBM RF 82.76 60.17 64.46 292.68 29.52 117.78 34.39 LGBM RF 82.76 60.17 64.46 292.68 29.52 117.78 34.39 0.25
117.28 59.49 64.39 381.61 25.03 121.82 37.47 117.28 59.49 64.39 381.61 25.03 121.82 37.47 0.21
LR 110.99 59.92 64.34 367.16 45.14 175.48 32.11 LR 110.99 59.92 64.34 367.16 45.14 175.48 32.11 0.23
GBDT KNN 113.41 62.08 63.82 348.09 46.26 176.71 31.67 GBDT KNN 113.41 62.08 63.82 348.09 46.26 176.71 31.67 0.25
107.79 58.35 64.68 349.62 43.82 120 35.57 107.79 58.35 64.68 349.62 43.82 120 35.57 0.24
XGBoost Best model 59.36 49.11 64.39 77.66 27.55 51.18 37.46 XGBoostベストモデル59.36 49.11 64.39 77.66 27.55 51.18 37.46 0.50
XGBoost XGBoost GBDT XGBoost RF XGBoost GBDT XGBoost XGBoost GBDT XGBoost RF XGBoost GBDT 0.43
Table 3 MAPE results for all 7 scenarios on data set AR 表3 データセットAR上の7つのシナリオすべてに対するMAPE結果 0.79
Scenario AtoA uses short-term traffic accidents (below ) for both training and the prediction. シナリオAtoAは、トレーニングと予測の両方に短期的な交通事故(下図)を使用する。 0.77
XGBoost shows a significant performance for AR and M data sets compared with other scenarios; more specifically, they outperform by 10% all models in data set AR (MAPE=51.2) and 30% all models in dataset M (MAPE=68.4). より具体的には、データセットAR(MAPE=51.2)における全モデルを10%上回り、データセットM(MAPE=68.4)における全モデルを30%上回ります。 0.68
For the SF data set, the improvement is even larger (MAPE=12.7), but XGboost loses ground over LGBM, which reaches a MAPE=11.0. SFデータセットでは、改善はもっと大きい(MAPE=12.7)が、XGboostは、MAPE=11.0に達するLGBMよりも負けている。 0.69
The comparison of scenarios AtoA and AlltoA shows that adding incidents with a longer duration can severely affect the predictionperformanc eacrossalldatasets,r egardlessofthesizeor locationoftheinciden tlogs. AtoA と AlltoA のシナリオの比較では、インシデントを長時間追加することは、予測性能のアクロスオールデータセット、つまり、アセプションの配置に大きく影響する可能性がある。
訳抜け防止モード: AtoAとAlltoAの比較では、 長期間のインシデントの追加は 予測性能に深刻な影響を及ぼす
0.52
Forthebestprediction Grigorev et al : Preprint submitted to Elsevier 司会のことば Grigorev et al : Elsevierに提出されたプレプリント 0.47
Page 18 of 27 27頁18頁。 0.75
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Model AlltoAll AtoA AtoB BtoA BtoB AlltoA AlltoB Model AlltoA AtoB BtoA BtoB AlltoA AlltoB 0.37
LGBM RF 135.59 95.89 68.78 663.12 34.14 233.48 34.38 LGBM RF 135.59 95.89 68.78 663.12 34.14 233.48 34.38 0.25
226.6 95.38 69.01 939.59 51.02 406.43 34.34 226.6 95.38 69.01 939.59 51.02 406.43 34.34 0.21
LR 229.53 107.29 69.49 818.08 52.33 387.25 34.21 LR 229.53 107.29 69.49 818.08 52.33 387.25 34.21 0.23
GBDT KNN 229.46 104.87 68.62 878.47 50.99 398.13 34.48 GBDT KNN 229.46 104.87 68.62 878.47 50.99 398.13 34.48 0.25
229.82 105.26 69.79 854.81 48.68 402.02 36.89 229.82 105.26 69.79 854.81 48.68 402.02 36.89 0.21
Best model XGBoost XGBoost GBDT ベストモデルXGBoost XGBoost GBDT 0.80
XGB 85.98 67.92 68.69 180.77 XGBoost 31.18 XGBoost 76.71 XGBoost LR 34.98 XGB 85.98 67.92 68.69 180.77 XGBoost 31.18 XGBoost 76.71 XGBoost LR 34.98 0.28
Table 4 MAPE results for all 7 scenarios on data set M 表4 データセットM上の7つのシナリオすべてに対するMAPE結果 0.84
Model AlltoAll AtoA AtoB BtoA BtoB AlltoA AlltoB Model AlltoA AtoB BtoA BtoB AlltoA AlltoB 0.37
LGBM RF 33.16 9.34 68.08 166.06 23.69 45.35 24.28 LGBM RF 33.16 9.34 68.08 166.06 23.69 45.35 24.28 0.25
36.88 11.91 65.77 191.55 28.76 50.74 23.97 36.88 11.91 65.77 191.55 28.76 50.74 23.97 0.21
LR 128.42 16.07 67.21 389.07 70.18 218.49 45.08 LR 128.42 16.07 67.21 389.07 70.18 218.49 45.08 0.23
GBDT KNN 64.24 41.85 12.56 14.05 65.53 66.26 302.46 211.61 37.6 31.08 99.06 60.03 25.49 30.82 GBDT KNN 64.24 41.85 12.56 14.05 65.53 66.26 302.46 211.61 37.6 31.08 99.06 60.03 25.49 30.82 0.22
XGBoost Best model 37.03 11.44 65.84 32.62 27.61 35.49 24.78 xgboost ベストモデル37.03 11.44 65.84 32.62 27.61 35.49 24.78 0.46
LGBM LGBM GBDT XGBoost LGBM XGBoost RF LGBM LGBM GBDT XGBoost LGBM XGBoost RF 0.42
Table 5 MAPE results for all 7 scenarios on data set SF 表5 データセットSF上の7つのシナリオすべてに対するMAPE結果 0.82
performance on data sets AR, M and SF, we need to split the data and use separate models for the short-term incidents as predictions become skewed towards longer incident duration. データセットAR, M, SFの性能は, より長いインシデント時間に向けて予測が歪むにつれて, データを分割し, 短期インシデントに対して別々のモデルを使用する必要がある。 0.73
Thus, if we predict short-term incidents using only short-term incidents data logs, we obtain a higher accuracy across all datasets. したがって、短期インシデントデータログのみを使用して短期インシデントを予測すれば、すべてのデータセットにわたって高い精度が得られる。 0.65
Scenario AtoB is unique because regression models are trained on Subset A, which contains short-term incident duration logs while they are trying to predict long-term incidents; therefore, the performance is much worse than for AtoA scenario since incidents with long duration are much scarcer and have unique traffic conditions. シナリオatobは、長期インシデントを予測しようとしている間に短期インシデント継続時間ログを含むサブセットaで回帰モデルがトレーニングされているため、長期インシデントが極めて少なく、トラフィック条件がユニークなため、atoaシナリオよりもパフォーマンスがはるかに悪いため、ユニークなシナリオである。 0.68
BtoB scenario shows lower error than AtoB across all three data sets (e g BtoB provides 23.69% MAPE and AtoB provides 65.53% MAPE for best models for data set SF). BtoBのシナリオは、3つのデータセットでAtoBよりも低いエラーを示している(例えば、BtoBは23.69%のMAPE、AtoBは65.53%のMAPEをデータセットSFのベストモデルに提供している)。 0.66
Vice-versa, Scenario BtoA shows very high extrapolation errors across all methods to lower values. 逆のScenario BtoAは、すべてのメソッドで非常に高い外挿エラーを示し、値を下げる。 0.62
Adding short-term incidents into the training set of long-term incidents (when we move from BtoA to AlltoA scenario) significantly reduces the error (76.71% MAPE for scenario AlltoA, data set M using XGBoost), but it is still significantly higher than for AtoA scenario (67.92% MAPE for M data set using XGBoost). 長期のインシデント(BtoAからAlltoAのシナリオに移行する場合)のトレーニングセットに短期インシデントを追加するとエラーが大幅に減少する(シナリオでは76.71% MAPE、シナリオではAlltoA、XGBoostを使用するデータセットM)が、AtoAのシナリオでは67.92% MAPE、XGBoostを使用するデータセットでは67.92% MAPE)。
訳抜け防止モード: 長期にわたるトレーニングセットに短期インシデントを追加する(BtoAからAlltoAシナリオに移行する場合)ことで、シナリオAlltoAのエラー(76.71 % MAPE)が大幅に削減される。 XGBoost を使用したデータセット M は AtoA のシナリオ (XGBoost を使用した M データセットに対する 67.92 % MAPE ) よりもはるかに高い。
0.82
Scenario BtoBshowsbetterperfo rmance(e g MAPE=31.18%fordatasetMusi ngXGBoost)thanusingd ataaddition (suchasthecaseofAllt oB,whereMAPE=34.21%usingbestmodel )oranyextrapolation( asinthecaseofAtoB,wh ere MAPE=68.62% using best model). シナリオBtoBshowsbetter Performance(e g MAPE=31.18%fordatasetMusi ngXGBoost)thanusingd ataaddition(suchasth ecaseofAlltoB、whereMAPE=34.21%usingbestmodel )oranyextrapolation( asinthecaseofAtoB、where MAPE=68.62%) 0.42
By comparing scenarios AtoB and AlltoB we observe a significant performance improvement when adding data for long-term incidents and predicting subset B (from 63.82% to 31.67% MAPE for dataset AR using best model), where error is still higher than for BtoB (25.03%, AR, best model). AtoBとAlltoBを比較することで、長期インシデントのためのデータの追加とサブセットB(ベストモデルを使用したデータセットARの63.82%から31.67% MAPE)の予測において、エラーがBtoB(25.03%、AR、ベストモデル)よりも依然として高い場合において、大幅なパフォーマンス向上が観察できる。 0.70
Scenario BtoA shows high prediction errors across all scenarios highlighting a bad extrapolation accuracy when predicting shortterm incidents duration using long-term traffic incident data. シナリオBtoAは、長期トラフィックインシデントデータを使用して短期インシデント予測を行う場合、すべてのシナリオで高い予測誤差を示す。 0.75
It means that prediction of the duration of short-term incidents should be performed separately from long-term incidents. つまり、短期的なインシデント期間の予測は、長期インシデントとは別に行うべきである。 0.64
Thus, we can’t use long-term incidents to predict the duration of short-term incidents and vice versa if we are looking at maximising model performance with limited data set; the second reason lies mainly in different traffic behaviour along with severe accidents that can last for several hours which are harder to clear off - these require similar previous events in order to be predicted for their duration. したがって、短期的なインシデントを予測するために長期的なインシデントを使用することはできないし、その逆も、限られたデータセットでモデルパフォーマンスを最大化することを検討している場合である。
訳抜け防止モード: したがって、私たちは長期にわたるインシデントを使用しません。 短期的な出来事の期間を予測する 逆に 限られたデータセットで モデル性能を最大化する 第二の理由は、主に交通行動が異なることと、重大事故である。 取り除くのが難しくなっています -期間を予測するためには、同様のイベントが必要になる。
0.72
5.2. Outcomes and recommendations Scenario modelling shows that the baseline ML models are not improving when facing incident duration extrapolation or data addition (e g AtoA versus AlltoA, BtoB versus AlltoB); these two training set-ups badly affect the model performance extrapolating in any direction. 5.2. 結果とレコメンデーションのシナリオモデリングは、インシデント期間外挿やデータ追加(atoa対alltoa、btob対alltobなど)に直面した場合、ベースラインmlモデルが改善されていないことを示している。
訳抜け防止モード: 5.2. アウトカムとレコメンデーション シナリオモデリングは、ベースラインMLモデルが改善していないことを示している。 インシデント時間外挿またはデータ追加(例えば、AtoA対AlltoA、BtoB対AlltoB) この2つのトレーニングセットは、任意の方向に外挿するモデルパフォーマンスに重大な影響を与えます。
0.52
Therefore, it is essential for the bi-level framework and traffic incident duration prediction to use separate models for short-term and long-term traffic incidents. したがって、短期・長期の交通事故に別個のモデルを使うためには、双方向のフレームワークと交通事故発生期間予測が不可欠である。 0.60
Moreover, tree-based methods significantly outperforming LR demonstrates that traffic incident regression is a complex non-linear problem さらに、LRを著しく上回る木に基づく手法は、トラフィックインシデントレグレッションが複雑な非線形問題であることを証明している。
訳抜け防止モード: さらに、木に基づく手法はLRを著しく上回ります。 交通事故の回帰は複雑な非線形問題である
0.63
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 19 of 27 27ページ19頁。 0.76
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
that requires more advanced investigations. より高度な調査が必要です 0.73
This aspect was the one that motivated our research to further improve and build a better ML framework for any type of incoming data set, and the results of this novel IEO-ML framework are further detailed in the following section. この側面は、あらゆる種類の受信データセットに対してより良いMLフレームワークをさらに改善し、構築するために我々の研究を動機づけたものであり、この新しいIEO-MLフレームワークの結果は以下の節でさらに詳細に述べられている。 0.65
5.3. Regression results for proposed IEO-ML model In this section, we employ our proposed Intra-extra joint optimisation approach previously presented in Section 3.7 and we further present the results of the All-to-All regression scenario, with a log-transformation of incident duration and several outlier removal techniques such as the LocalOutlierFactor (LOF) and the IsolationForest (IF), previously described in Section 3.6. 5.3. 本節では,提案する ieo-ml モデルに対する回帰結果について,前節 3.7 で提示した本提案手法を用いて,インシデント期間のログ変換と,前節 3.6 に記載された localoutlierfactor (lof) や isolationforest (if) のようないくつかの異常除去手法を用いた全対全回帰シナリオの結果について述べる。 0.56
All results across the three data sets are presented in Table 6-Table 7-Table 8. 3つのデータセットのすべての結果は、Table 6-Table 7-Table 8で示されます。 0.64
 Log LightGBM 80.4 80.3 RF 80.0 LR 79.4 GBDT KNN 82.9 59.4 XGBoost Best  XGBoost XGBoost ジ・ログ・ライトGBM 80.4 80.3 RF 80.0 LR 79.4 GBDT KNN 82.9 59.4 XGBoost Best > XGBoost XGBoost 0.62
Unprocessed 81.1 121.9 128.4 128.2 127.4 61.1 Unprocessed 81.1 121.9 128.4 128.2 127.4 61.1 0.24
iIF-Log 79.9 79.5 80.4 82.0 82.3 60.8 XGBoost XGBoost XGBoost iIF-Log 79.9 79.5 80.4 82.0 82.3 60.8 XGBoost XGBoost XGBoost 0.26
eLOF-Log 78.4 78.5 80.5 81.4 81.7 60.9 eLOF-Log 78.4 78.5 80.5 81.4 81.7 60.9 0.21
eIF-Log 82 80.7 81.6 81.3 86.2 59.8 eIF-Log 82 80.7 81.6 81.3 86.2 59.8 0.24
iLOF-Log Best approach 80.8 79.1 80.5 83.4 81.3 59.9 XGBoost iLOF-Log Best approach 80.8 79.1 80.5 83.4 81.3 59.9 XGBoost 0.26
eLOF-Log-LightGBM eLOF-Log-RF Log-LR Log-GBDT iLOF-Log-kNN Log-XGboost eLOF-Log-LightGBM eLOF-Log-RF Log-LR Log-GBDT iLOF-Log-kNN Log-XGboost 0.16
Table 6 MAPE results for All-to-All scenario of data set A, using different ORM approaches and incident duration transformation, via the proposed IEO-ML approach. 表 6 mape は、提案された ieo-ml アプローチを介して、異なる orm アプローチとインシデント持続時間変換を使用して、データセット a の全対全シナリオの結果を示す。
訳抜け防止モード: 表 6 MAPE results for All - to - all scenario of data set A, 異なるORMアプローチとインシデント持続時間変換を使用する。 提案されているIEO - MLアプローチを通じて。
0.65
For the data set A (Table 6), we observe a significant impact of using the log-transformation of the incident duration vector via the resulting MAPE (see Unprocessed versus Log columns). データセットA(表6)については、結果のMAPEを介してインシデント持続時間ベクトルのログ変換を使用することによる大きな影響を観察する(未処理対ログ列参照)。 0.83
Since the log-transformation provides a significant improvement among majority of ML models, we decide to use it in our outlier removal scenarios. ログ変換は、MLモデルの大部分で大幅に改善されているため、アウトリージ削除シナリオで使用することにしました。 0.58
When comparing results across all models, both regular and re-enforced by our IEO approach (column comparison - see Best  results), we observe that XGBoost is the best performing baseline model for this data set reaching a 59.4 MAPE. IEOアプローチによって強化された正規および再強化されたすべてのモデルで結果を比較する際には、XGBoostが59.4 MAPEに達するデータセットの最高のパフォーマンスベースラインモデルであることを観察する。 0.83
Furthermore, when comparing results across regular ML models versus our proposed IEO-ML enhancements (row comparison), then the extra optimisation approaches seem to outperform the intra optimisation approaches (see iIF-Log versus eIF-Log and eLOF-Log versus iLOF-Log columns). さらに、通常のMLモデルと提案したIEO-ML拡張(ロー比較)を比較した場合、最適化の余分なアプローチは最適化のアプローチよりも優れているようである(iIF-Log対eIF-Log、eLOF-Log対iLOF-Log列参照)。 0.64
The last column indicates the best approach that won across all proposed IEO approaches where for example, eLOF-Log-RF model is read as the extra optimisation method applied together with the Local Outlier Factor and Random Forest over the log scale data transformation; for thisdatasetAresultsi ndicateasimilarperfo rmancebetweenusingba selineMLmodelswithlo gtransformationversu s enhanced IEO-ML - for example the joint optimization provides an improvement (eLOF-log-LightBGM, eLOF-logRF) versus the cases cases when only the baseline ML with the log-transformation was used (e g Log-LR, Log-BDT). The last column indicates the best approach that won across all proposed IEO approaches where for example, eLOF-Log-RF model is read as the extra optimisation method applied together with the Local Outlier Factor and Random Forest over the log scale data transformation; for thisdatasetAresultsi ndicateasimilarperfo rmancebetweenusingba selineMLmodelswithlo gtransformationversu s enhanced IEO-ML - for example the joint optimization provides an improvement (eLOF-log-LightBGM, eLOF-logRF) versus the cases cases when only the baseline ML with the log-transformation was used (e g Log-LR, Log-BDT).
訳抜け防止モード: 最後の列は、例えば、提案されているすべてのIEOアプローチに勝った最良のアプローチを示している。 このdatasetAresultsindic ateasimilar Performancebetweenus ingbaselineMLmodelsw ithlogtransformation versus enhanced IEO - ML – 例えば、共同最適化は改善(eLOF - log - LightBGM)を提供する。 eLOF - logRF ) 対、ログを持つベースラインMLのみを使用する場合(例えば Log - LR,)。 ログ - BDT。
0.63
However, the A data set is very small and has a special behaviour when compared to the others as further results revealed. しかし、aデータセットは非常に小さく、さらなる結果が示すように、他のデータセットと比較して特別な振る舞いを持つ。 0.65
Log  LightGBM 124.6 126.3 RF 130.7 LR 126.7 GBDT KNN 139 78.6 XGBoost Best  XGBoost XGBoost ログ シュライトGBM 124.6 126.3 RF 130.7 LR 126.7 GBDT KNN 139 78.6 XGBoost Best シュXGBoost XGBoost 0.70
Unprocessed 138.0 238.6 245.9 240.1 248.2 113.2 Unprocessed 138.0 238.6 245.9 240.1 248.2 113.2 0.24
iIF-Log 123.6 126.6 129.8 126.9 135.1 77.5 XGBoost XGBoost XGBoost iIF-Log 123.6 126.6 129.8 126.9 135.1 77.5 XGBoost XGBoost XGBoost 0.26
eLOF-Log 125.1 127.1 131.1 127.2 139.4 78.3 eLOF-Log 125.1 127.1 131.1 127.2 139.4 78.3 0.21
eIF-Log 126.8 125.7 129.9 126.7 137 80.6 eIF-Log 126.8 125.7 129.9 126.7 137 80.6 0.24
iLOF-Log Best approach 124.1 126.6 131 126.9 138.2 79.6 XGBoost iLOF-Logベストアプローチ124.1 126.6 131 126.9 138.2 79.6 XGBoost 0.54
iIF-Log-LightGBM eIF-Log-RF iIF-Log-LR Log-GBDT iIF-Log-KNN iIF-Log-XGBoost iIF-Log-LightGBM eIF-Log-RF iIF-Log-LR Log-GBDT iIF-Log-KNN iIF-Log-XGBoost 0.14
Table 7 MAPE results for All-to-All scenario of data set M, using different ORM approaches and incident duration transformation, via the proposed IEO-ML approach. 表7 MAPEは、異なるORMアプローチとインシデント持続時間変換を使用して、提案されたIEO-MLアプローチを介してデータセットMの全シナリオに対して結果を得る。 0.65
For the data set M (Table 7), when we use Log-transformation, we observe very high MAPE scores (100% and higher), except for XGBoost, which provides a MAPE of 78.6%. ログ変換を使用するデータセットM(テーブル7)では、XGBoostを除いて非常に高いMAPEスコア(100%以上)を観測し、78.6%のMAPEを提供する。 0.67
When comparing the models with each other against モデルを互いに比較する場合 0.68
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 20 of 27 27ページ20頁。 0.76
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
the IEO enhancements as well (column comparison), using XGboost as a baseline seems to over-perform all the other approaches, with the best results being a MAPE=77.5 for iIF-Log-XGBoost. IEOの拡張(カラムの比較)も、XGboostをベースラインとして使用することで、他のすべてのアプローチがオーバーパフォーマンスしているように思われる。 0.61
When comparing against the proposed approaches (row comparison), the Intra joint optimisation using Isolation Forest in log-transform shows the best performance on this data set for four models (iIF-Log-LightGBM, iIF-Log-LR, iIF-Log-kNN, iIF-Log-XGBoost), which can be attributed to data set data structure - outliers can be better analysed using tree-based outlier removal methods rather than distance-based LOF. 提案手法(row比較)と比較すると,log-transformにおけるアイソレーションフォレストを用いたジョイント最適化は,データ集合データ構造に起因する4つのモデル (iif-log-lightgbm, iif-log-lr, iif-log-knn, iif-log-xgboost) において,このデータセット上で最も優れた性能を示す。 0.77
For the majority of models (4 out of 6), our proposed joint optimisation algorithm obtains the best results for this data set. モデルの大部分(6点中4点)に対して,提案した共同最適化アルゴリズムは,このデータセットに対して最適な結果を得る。 0.77
 Log LightGBM 29.9 RF 28.9 72.6 LR 31.2 GBDT 61.5 KNN XGBoost 31.7 Best  RF KNN XGBoost 31.7 Best RF 28.9 72.6 LR 31.2 GBDT 61.5 KNN XGBoost 31.7 Best RF 0.33
Unprocessed 32.6 38.7 140.5 46.3 108.6 35.1 LightGBM 未処理 32.6 38.7 140.5 46.3 108.6 35.1 LightGBM 0.46
iIF-Log 29.7 28.7 72.8 31.5 61.7 31.9 RF iIF-Log 29.7 28.7 72.8 31.5 61.7 31.9 RF 0.23
eIF-Log 29.5 28.9 73.1 31.4 62.5 31.6 RF eIF-Log 29.5 28.9 73.1 31.4 62.5 31.6 RF 0.23
eLOF-Log 30.2 28.8 73.3 32.4 62.2 32.7 RF eLOF-Log 30.2 28.8 73.3 32.4 62.2 32.7 RF 0.23
iLOF-Log Best approach 29.9 28.9 72.4 32.2 61.8 31.0 RF iLOF-Logベストアプローチ29.9 28.9 72.4 32.2 61.8 31.0 RF 0.50
eIF-Log-LightGBM iIF-Log-RF iLOF-Log-LR Log-GBDT Log-KNN iLOF-Log-XGBoost eIF-Log-LightGBM iIF-Log-RF iLOF-Log-LR Log-GBDT Log-KNN iLOF-Log-XGBoost 0.15
Table 8 MAPE results for All-to-All scenario of data set SF, using different approaches for ORM and incident duration transformation, via the proposed IEO-ML approach. テーブル8 MAPEは、提案されたIEO-MLアプローチを通じて、ORMとインシデント持続時間変換の異なるアプローチを使用して、データセットSFのオール・ツー・オールシナリオの結果を出力する。
訳抜け防止モード: 表 8 MAPE results for All - to - All scenario of data set SF, ORMとインシデント持続時間変換の異なるアプローチを使用する。 提案されているIEO - MLアプローチを通じて。
0.64
ForthedatasetSF(Tabl e8),weobservetwocomp etingmodels-LightGBM andRandomForestswith aprevalence for Random Forests (column comparison - see Best  results). ForthedatasetSF(Tabl e8),weobservetwocomp etingmodels-LightGBM andRandomForestswith aprevalence for Random Forests (カラムの比較 - ベストな結果を参照)。 0.53
Also, we observe a considerably lower MAPE score for the best performing models which reached the lowest threshold of 28.7 across all the data sets used in this study. また,本研究で使用した全データセットに対して,最低閾値28.7に達した最高のモデルに対して,MAPEスコアがかなり低いことを観察した。 0.79
This reveals the power of more complete and larger data sets which can signifficantly improve the model performance. これは、モデルパフォーマンスを著しく改善できる、より完全で大きなデータセットのパワーを明らかにする。 0.70
When comparing the IEO approaches (row comparison), the intra joint optimisation shows improvement across three modelsandmorespecificallyforthebestperfo rmingmodelonthisdata set,RF.Oneconsistent findingacrossallresult s is the fact that the log-transformation of the incident duration vector should be used at all times for incident duration prediction since it significantly improves predictions accuracy; this is mostly related to the long tail distribution and extreme outliers which can affect the final errors in the model performance evaluation. When comparing the IEO approaches (row comparison), the intra joint optimisation shows improvement across three modelsandmorespecificallyforthebestperfo rmingmodelonthisdata set,RF.Oneconsistent findingacrossallresult s is the fact that the log-transformation of the incident duration vector should be used at all times for incident duration prediction since it significantly improves predictions accuracy; this is mostly related to the long tail distribution and extreme outliers which can affect the final errors in the model performance evaluation.
訳抜け防止モード: IEO アプローチの比較(行比較) 1consistentfindingac rossallsults is that that the log - transformation of the incident duration vector is not be always time for incident duration prediction because it improves predictions accuracy; これは主に長い尾の分布と極端な外れ値に関係している。 モデルの性能評価における最終的なエラーに影響を与える可能性がある。
0.75
Overall, the best performing models are considered to be XGBoost and Random Forests. 全体として、最高のパフォーマンスモデルはXGBoostとRandom Forestsだと考えられている。 0.68
To summarise, every data set has its specifics in the data structure, which make some models and outlier removal methods performing better than others. 要約すると、すべてのデータセットはデータ構造に固有の特性を持ち、いくつかのモデルと外れ値除去メソッドが他よりも優れたパフォーマンスを発揮する。 0.61
Thus, it is necessary to deploy different models and outlier removal approaches on every data set. したがって、各データセットに異なるモデルと外れたアプローチをデプロイする必要がある。 0.78
Conventional models (KNN and Linear Regressions) show the highest error which is almsot twice in comparison to tree-based models. 従来のモデル(KNNとLinear Regressions)は、木ベースのモデルと比較して2倍の誤差を示す。 0.81
Thus, tree-based models are preferred options for solving the incident duration prediction together with adapted optimisation and outlier techniques. このように、木に基づくモデルは、適応された最適化と外れ値のテクニックと共にインシデント期間予測を解くための選択肢として好まれる。 0.54
Overall, we proved that our proposed intra joint optimisation is improving the regression results across multiple data sets (especially data sets M and SF in 7 out of 12 cases). 提案した関節内最適化により,複数のデータセット(特に12例中7例のデータセットMとSF)の回帰結果が改善されることが実証された。 0.78
The joint optimisation of the model together with the outlier removal method shows a significant improvement in majority of cases (12 out of 18) across all three data sets. モデルと外乱除去法を併用した共同最適化は,3つのデータセットのほとんど(18点中12点)において有意な改善を示した。 0.82
6. Feature importance impact and evaluation Finally, we evaluate the feature importance using a Shapley value calculation in order to estimate the contribution of each feature to the final prediction score. 6)特徴重要度の影響と評価 最後に,各特徴の最終的な予測値への寄与を推定するために,Shapley値計算を用いて特徴重要度を評価する。 0.85
Each point related to a feature is shown in Fig 8 and represents the SHAP value score (Oy-axis), coloured by its value (from low to high),while the Ox-axis shows the impact of that feature information on the entire prediction output. 特徴に関連する各点が図8に示され、その値(低値から高値まで)で色分けされたシェープ値スコア(oy軸)を表すが、ox軸は、その特徴情報が予測出力全体に与える影響を示す。 0.80
The used models for this feature importance analysis are the winning models of each data set (A, M, or SF) as previously discussed. この特徴量分析に使用されるモデルは、前述したように、各データセット(a、m、sf)の勝利モデルである。 0.76
The hour-of-the-day when the incident started is among the top 5 features sorted by importance (ranked on the 1 place for data set A, 3 for M and 4Ò for SF). インシデントが始まった1時間は、重要度の高い上位5つに分類されている(データセットaの1/1、mの3/3、sfの4/4)。 0.56
For example, Fig 8a) showcases that as the hour of the day increases (getting closer to midnight) the traffic durations are lower as the congestion is lower and rescue teams arrive faster to the accident location; this is the opposite on the motorways as Fig 8b) reflects that rescue teams havea a harder time reaching the incident location in the evening, which is mostly explained by the high distance of the motorway from the local incident management centre. 例えば、図8aは、一日の時間(真夜中近く)が増加するにつれて、渋滞が減り、救助チームが事故現場に早く到着するにつれて、交通時間が短くなることを示しており、図8bのように、救助チームは夕方にインシデント地点に到達するのが難しく、これは主に地元のインシデント管理センターからの高速道路の高距離で説明されている。 0.66
The incident reporting source also has a high significance ( ranked as 7Ò most important for A, 2 for M, 2 for SF). インシデント報告の情報源も高い重要性を持っている(A が 7 倍、M が 2 倍、SF が 2 倍)。 0.61
The Ox-axis on SHAP plots represents the impact on model output SHAPプロット上のOx軸はモデル出力に与える影響を表す 0.87
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 21 of 27 27ページ21頁。 0.77
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Figure 8: Feature importance for All-to-All regression using XGBoost for 図8:XGBoost for All-to-Allレグレッションの特徴 0.77
a) Arterial roads, Sydney, Australia a) オーストラリア,シドニーの幹線道路 0.65
b) M7 motorway, Sydney, Australia b)オーストラリアのシドニーにあるm7高速道路 0.67
c) San-Francisco, USA c) アメリカ合衆国サンフランシスコ 0.85
(e g the effect on the predicted duration value). (例えば、予測された持続時間値への影響)。 0.72
Even though the average temperature is considered significant, its effect on the regression model output is very small [−5; +5] for data set AR, [−5; +5] for data set M, [−25; +25] for data set SF. 平均温度は重要であると考えられているが、回帰モデル出力に対する影響はデータセット ar に対して非常に小さく、データセット m に対して [−5 ; +5 ]、データセット sf に対して [−25 ; +25 ] である。 0.89
The distance from CBD (DistanceCBD) is important in the data set A, as it can point at some problematic areas, therefore causing a higher incident duration. cbd( distancecbd)からの距離は、いくつかの問題領域を指し示すことができるため、データセットaにおいて重要であるため、インシデント期間が高くなる。
訳抜け防止モード: データセットAではCBD(DistanceCBD)からの距離が重要である。 問題のある部分を指し示すことができるため、より高いインシデント持続時間を引き起こします。
0.77
The number of affected lanes is also an important feature for incident duration prediction on arterial roads in Sydney. 影響を受ける車線の数は、シドニーの幹線道路で発生期間を予測する重要な特徴である。 0.69
The model outputs for the M7 motorway revealed that is highly dependent on the sector ID (similar to the traffic zones in the data set A), which may be linked to the nature of the location or to the distance from incident management agencies. m7モーターウェイの出力モデルは、セクタid(データセットaのトラフィックゾーンに似ている)に強く依存していることを明らかにし、これは位置の性質やインシデント管理機関からの距離に関連付けられる可能性がある。 0.78
The average daily temperature also affects predictions (3 place in A, 7Ò in M and 6Ò in SF). 平均日温は、A では 3 位、M では 7 位、SF では 6 位にも影響する。 0.62
Weather factors (rainfall) are found to play a significant role in the M and SF data sets (humidity and barometric pressure may be predictors of rainfall). 気象因子(降雨)は、MおよびSFデータセットにおいて重要な役割を果たす(湿度と気圧は降雨の予測因子である可能性がある)。 0.80
Different incident sub-types in the M data set (e g car, motorcycle, truck, multi-vehicle) contribute to the difference in the accident duration. Mデータセットの異なるインシデントサブタイプ(例えば、車、オートバイ、トラック、マルチ車両)は、事故期間の違いに寄与する。 0.73
Severity is weakly connected to the incident duration in the A and SF data sets. 重大度は、AデータセットとSFデータセットのインシデント持続時間に弱くなる。 0.66
It is important to note that the SF data set contains 49 features, but 39 are of very low importance for the incident duration prediction. sfデータセットには49の機能が含まれているが、インシデント期間予測では39が極めて重要ではない点に注意が必要だ。 0.75
The length of the affected road segment (Distance in SF) may also be an essential feature which is not found in Sydney data sets. 影響を受ける道路区間の長さ(sfでは距離)もシドニーのデータセットには見られない重要な特徴である。 0.69
Overall, the specificity of each data set is reflected once again not only in the models that may be more successful than others but also in the way that the same model can provide various feature importance due to each country, their unique landscape and different way of dealing with the disruptions. 全体として、各データセットの特異性は、他よりも成功したモデルだけでなく、同じモデルがそれぞれの国、独自のランドスケープ、ディスラプションに対処するさまざまな方法によって、さまざまな機能の重要性を提供する方法にも再び反映されます。 0.78
7. CONCLUSIONS This paper proposed a novel bi-level framework for predicting the incident durations via a unique combination of baseline machine learning models (for both classification and regression), together with an outlier removal procedure and a novel intra-extra joint optimisation technique. 7) 本論文では, ベースライン機械学習モデル(分類と回帰の両方のための)のユニークな組み合わせと, 外乱除去法, 新たな外乱関節最適化手法を用いて, 入射時間を予測する新しい2段階フレームワークを提案する。 0.86
The accuracy and importance of the proposed approach has been proved via three different data sets from 2 countries (Australia and United States of America) under several scenarios for testing and validation. 提案手法の精度と重要性は、2つの国(オーストラリアとアメリカ)の3つの異なるデータセットを通して検証と検証のシナリオで証明されている。 0.83
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 22 of 27 27ページ22頁。 0.78
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Major contributions: Firstly, regarding the classification prediction of incidents into short versus long-term: we found that the optimal duration classification thresholds are similar among the three different data sets: 40min for data set AR, 45min for M, 45min for SF. 主な貢献: まず、短期または長期のインシデントの分類予測について: 最適な持続時間分類しきい値が、3つの異なるデータセットの間で類似していることを発見した: データセットarの40分、mの45分、sfの45分。
訳抜け防止モード: 主な貢献 : まず, 短期および長期のインシデントの分類予測について : 3つの異なるデータセットのうち, 最適な持続時間分類しきい値が類似していることが判明した。 45分、mが45分、sfが45分。
0.80
Sydney TIMS also found 45 minutes to be the threshold for incident removal performance evaluation via their on-the field expertise; this represented a confirmation that our threshold split is in coherence with realistic operational rescue times. シドニー・ティムスはまた、現場での専門知識を通じて、インシデント除去性能評価のしきい値として45分であることを発見した。
訳抜け防止モード: シドニーのTIMSも45分間発見 現場の専門知識による事故除去性能評価のしきい値となる これは我々の閾値分割が現実的な作業救助時間と一致していることの確認であった。
0.80
Secondly, the best performing and robust models in the classification and regression experiments were the tree-based models (XGBoost, RandomForest, etc). 第二に、分類と回帰実験における最高のパフォーマンスと堅牢なモデルは、ツリーベースモデル(XGBoost、RandomForestなど)である。 0.77
Thirdly, our extensive regression scenarios demonstrate that the short-term and long-term traffic accidents should be modelled separately. 第3に、当社の広範な回帰シナリオは、短期および長期の交通事故を別々にモデル化すべきことを示しています。
訳抜け防止モード: 第3に 広範な回帰シナリオは 短期および長期の交通事故は別々にモデル化されるべきである。
0.78
Otherwise, we will observe a drop in performance due to the adverse effect of different scale values in training set on the model output. さもないと、トレーニングセットの異なるスケール値がモデル出力に悪影響を及ぼすため、パフォーマンスが低下することを観察します。 0.78
Fourthly, our proposed IEO-ML approach outperformed baseline ML models in 12 out of 18 cases (66%) showcasing it’s strong value to the incident duration prediction problem. 第4に,提案するieo-mlアプローチは18例中12例(66%)でベースラインmlモデルよりも優れており,インシデント持続時間予測問題に対する強い価値が示された。 0.66
Finally, when evaluating the feature importance we showed that features related to time, location, type of the accident, reporting source and weather are among the top 10 critical features in all three data sets. 最後に、機能の重要性を評価する際、3つのデータセットの中で、時間、場所、事故の種類、報告ソース、天候に関連する機能が、トップ10の重要機能であることを示した。
訳抜け防止モード: 最後に、機能の重要性を評価するとき 時間、場所、事故の種類、発生源、天候に関する特徴が示されました 3つのデータセットで重要な機能のトップ10に入っている。
0.70
By improving the precision of the most important and removing non-important features from the incident reports, TIMS can significantly improve the quality of data acquisition. インシデントレポートから最も重要な機能の精度を改善し、重要でない特徴を取り除くことで、TIMSはデータ取得の品質を大幅に向上させることができる。 0.65
Future research can be related to the usage of traffic simulation with information on predicted traffic incident duration included in the decision making process during route planning. 今後の研究は、道路計画中の意思決定プロセスに含まれる予測交通インシデント期間に関する情報を含む交通シミュレーションの利用に関係がある。 0.81
For example, the vehicle can consider that a traffic incident is short-term and assume that it will be cleared before arriving at the incident location and therefore reduce its travel time by not planning a route around the incident site. 例えば、車両は、交通事故が短期的であるとみなし、事故現場に着く前にクリアされると仮定し、事故現場周辺のルートを計画しないことで走行時間を短縮することができる。 0.73
Furthermore, the cost of prediction error and the benefit of traffic accident duration estimation can be estimated from the simulation model, where occasional traffic accidents happen within traffic flow. さらに, 予測誤差のコストと, 事故継続時間推定の利点をシミュレーションモデルから推定し, 時折交通事故が交通の流れの中で発生するシミュレーションモデルから推定する。 0.83
Also, the benefit of this approach can be estimated for online route planning and not only at the time of the departure. また、この手法の利点は、出発時に限らず、オンラインルート計画において推定することができる。 0.70
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 23 of 27 27ページ23頁。 0.78
英語(論文から抽出)日本語訳スコア
A. Appendix A A. Appendix A 0.43
Providing additional results for the threshold variation along all data sets such as (Accuracy, Precision and Recall). 精度、精度、リコールなど、すべてのデータセットに沿ったしきい値の変化に関する追加結果を提供する。 0.72
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Figure 9: Binary classification performance using varying incident duration threshold 図9:異なる入出力時間しきい値を用いた二項分類性能 0.76
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 24 of 27 XGBoostXGBoostXGBoos tVictoria road netowork, Sydney, AustraliaXGBoostXGBo ostXGBoostM7 motorway, Sydney, AustraliaXGBoostXGBo ostXGBoostXGBoostSan -Francisco, U.S.A 27ページ24 XGBoostXGBoostXGBoos tVictoria road netowork, Sydney, Australia XGBoostXGBoostXGBoos tM7 motorway, Sydney, Australia XGBoostXGBoostXGBoos tXGBoostXGBoostSan-F rancisco, U.S. 0.42
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
B. Appendix B Providing additional information with regards to the computational time of various baseline ML models across the three data sets. B.アペンディックスB 3つのデータセットにまたがる様々なベースラインMLモデルの計算時間に関する追加情報を提供する。 0.85
The findings indicate the RF and kNN seem to be the slowest models to train versus LGBM and XGBoost and LR which are faster from a computational time point of view. その結果, RFとkNNはLGBM, XGBoost, LRに対して, 計算時間の観点からより高速な訓練モデルであることが示唆された。 0.74
Figure 10: Performance testing of ML models across three different data sets 図10:3つの異なるデータセットにわたるMLモデルのパフォーマンステスト 0.88
CRediT authorship contribution statement Fang Chen: guidance. CRediTオーサシップコントリビューションステートメント Fang Chen: ガイダンス。 0.47
Fang Chen: methodology, machine learning framework. Fang Chen: 方法論、マシンラーニングフレームワーク。 0.72
Artur Grigorev: implementation, conceptualisation, study deployment. Artur Grigorev: 実装、概念化、デプロイメントの研究。 0.86
Seunghyeon Lee: revision, guidance. Seunghyeon Lee: リビジョン、ガイダンス。 0.73
ACKNOWLEDGMENT This work has been done as part of the ARC Linkage Project LP180100114. 承認 この研究はARC Linkage Project LP180100114の一部として行われた。 0.56
The authors are highly grateful for the support of Transport for NSW, Australia. 著者らは、オーストラリアのnswへの輸送支援を高く評価している。 0.73
This research is funded by iMOVE CRC and supported by the Cooperative Research Centres program, an Australian Government initiative. この研究はimove crcが資金提供し、オーストラリア政府のイニシアチブであるcollaborative research centres programが支援している。 0.76
" for collision avoidance systems. " 衝突回避システムのために 0.62
Transportation research part C: emerging technologies 118, 102708. 交通研究部C:新興技術118,102708。 0.64
hazard-based duration modeling method. 危険度に基づく持続時間モデリング手法 0.66
Transportation Research Record 2229, 46–54. 交通調査記録2229,46-54。 0.61
References [1] Abou Elassad, Z.E., Mousannif, H., Al Moatassime, H., 2020. 参考文献 [1] Abou Elassad, Z.E., Mousannif, H., Al Moatassime, H., 2020 0.44
A real-time crash prediction fusion framework: An imbalance-aware strategy [2] Alkaabi, A.M.S., Dissanayake, D., Bird, R., 2011. A real-time crash prediction fusion framework: an im balance-aware strategy [2] Alkaabi, A.M.S., Dissanayake, D., Bird, R., 2011
訳抜け防止モード: リアルタイムクラッシュ予測融合フレームワーク : 不均衡対応戦略 [2]Alkaabi A.M.S., Dissanayake, D., Bird, R., 2011
0.80
Analyzing clearance time of urban traffic accidents in abu dhabi, united arab emirates, with [3] Bekkerman, R., 2015. アラブ首長国連邦アブダビにおける都市交通事故のクリアランス時間の解析 : [3] bekkerman, r., 2015 0.65
The present and the future of the kdd cup competition: an outsider’s perspective. kddカップコンペティションの現在と未来:外部からの視点。 0.49
[4] Bergstra, J., Bengio, Y., 2012. [4] Bergstra, J., Bengio, Y., 2012 0.37
Random search for hyper-parameter optimization. ハイパーパラメータ最適化のためのランダム探索 0.70
The Journal of Machine Learning Research 13, 281–305. The Journal of Machine Learning Research 13 281–305(英語) 0.79
[5] Breiman, L., 2001. 5) Breiman, L., 2001。 0.59
Random forests. Mach. ランダムな森。 マッハ 0.45
Learn. 45, 5–32. 学ぶ。 45, 5–32. 0.54
URL: https://doi.org/10.1 023/A:1010933404324, doi:10.1023/A: [6] Breunig, M., Kriegel, H.P., Ng, R., Sander, J., 2000. URL: https://doi.org/10.1 023/A:1010933404324, doi:10.1023/A: [6] Breunig, M., Kriegel, H.P., Ng, R., Sander, J., 2000 0.36
Lof: Identifying density-based local outliers. Lof: 密度ベースのローカル異常値の特定。 0.62
, in: 2000 ACM SIGMOD International [7] Chen, T., Guestrin, C., 2016. 2000 ACM SIGMOD International [7] Chen, T., Guestrin, C., 2016 0.31
Xgboost: A scalable tree boosting system, in: Proceedings of the 22nd acm sigkdd international conference on [8] Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., et al , 2015. Xgboost: 22cmのSigkdd国際会議([8] Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., et al , 2015)の成果。
訳抜け防止モード: xgboost : a scalable tree boosting system, in : 第22回acm sigkdd国際会議報告 [8] chen t.、h.、t.、ベネスティ、m.、ホティロヴィチ v., tang, y., cho, h., et al, 2015年。
0.71
Xgboost: extreme gradient boosting. Xgboost: 極端な勾配上昇。 0.84
R package version 0.4-2 [9] Chen, T., Shi, X., Wong, Y.D., Yu, X., 2020. Rパッケージバージョン 0.4-2 [9] Chen, T., Shi, X., Wong, Y.D., Yu, X., 2020 0.97
Predicting lane-changing risk level based on vehicles’ space-series features: A pre-emptive [10] Chung, Y., Walubita, L., Choi, K., 2011. A pre-emptive [10] Chung, Y., Walubita, L., Choi, K., 2011
訳抜け防止モード: 車線予測 - 車両の空間に基づくリスクレベルの変化 - シリーズの特徴 A pre-emptive [ 10 ] Chung, Y. Walubita , L. , Choi , K. , 2011
0.76
Modeling accident duration and its mitigation strategies on south korean freeway systems. 韓国高速道路における事故期間のモデル化と緩和戦略 0.73
Trans[11] Chung, Y., Walubita, L.F., Choi, K., 2010. Trans[11] Chung, Y., Walubita, L.F., Choi, K., 2010 0.44
Modeling accident duration and its mitigation strategies on south korean freeway systems. 韓国高速道路における事故期間のモデル化と緩和戦略 0.73
Trans[12] Fix, E., Hodges, J., 1951. Trans[12] Fix, E., Hodges, J., 1951 0.39
Discriminatory analysis, nonparametric discrimination. 差別分析、非パラメトリック判別。 0.70
International Statistical Review . [13] Friedman, J., 2000. 国際統計学者。 フリードマン (Friedman, J.) 2000年。 0.68
Greedy function approximation: A gradient boosting machine. グリーディ関数近似:勾配促進機。 0.65
The Annals of Statistics 29. doi:10.1214/aos/ [14] Government, A., 2017. 統計学者29人。 Doi:10.1214/aos/[14] Government, A., 2017 0.49
Road safety. URL: https://infrastructu re.gov.au/roads/safe ty/. 道路安全。 url: https://infrastructu re.gov.au/roads/safe ty/ 0.31
1010933404324. 1010933404324. 0.43
Conference on Management of Data, pp. 93–104. データ管理に関する会議, pp. 93-104。 0.88
doi:10.1145/342009.3 35388. doi:10.1145/342009.3 35388。 0.29
knowledge discovery and data mining, pp. 785–794. 知識発見とデータマイニング, pp. 785-794。 0.87
1. learning approach. 1. 学習アプローチ。 0.54
Transportation research part C: emerging technologies 116, 102646. 交通研究部c:新興技術116,102646。 0.63
portation Research Record Journal of the Transportation Research Board 2178, 49–57. 運輸研究委員会(2178, 49-57)のポーテーション研究記録。 0.74
doi:10.3141/2178-06. doi:10.3141/2178-06。 0.15
portation research record 2178, 49–57. 移植調査記録 2178, 49-57。 0.70
1013203451. 1013203451. 0.42
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 25 of 27 50100150200250Iterat ions0246810Time [seconds]Arterial roads, SydneyModelLGBMRFLRG BDTKNNXGB50100150200 250Iterations0510152 02530Time [seconds]M7 motorway, SydneyModelLGBMRFLRG BDTKNNXGB50100150200 250Iterations0204060 80100120Time [seconds]San-FranciscoModelLG BMRFLRGBDTKNNXGB 27ページ25頁。 50100150200250 Iterations0246810Tim e [seconds]Arterial road, SydneyModelBMRFLRGBD TKNNXGB5010015015050 [seconds]M7 motorway, SydneyModelBMRFLRGBD TKNNXGB505015050Iter ations02040608010012 0Time[seconds]San-FranciscoModelBM RFLRGBDTKNNXGB 0.52
英語(論文から抽出)日本語訳スコア
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
[15] Haule,H.J.,Sando,T. [15] Haule,H.J.,Sando,T. 0.99
,Lentz,R. ,Chuan,C.H.,Alluri,P . レンツ、r。 、Chuan,C.H.,Alluri,P。 0.67
,2019. Evaluatingtheimpacta ndclearancedurationo ffreewayincidents. ,2019. インプタクタクラーランス・オブ・フリーウェイインシデントの評価 0.38
International Journal of Transportation Science and Technology 8, 13 – 24. International Journal of Transportation Science and Technology 8, 13– 24 (英語) 0.85
URL: http://www.sciencedi rect.com/science/art icle/pii/S2046043018 300522, doi:https://doi.org/ 10.1016/j.ijtst.2018 .06.005. URL: http://www.sciencedi rect.com/science/art icle/pii/S2046043018 300522, doi:https://doi.org/ 10.1016/j.ijtst.2018 .06.005 0.17
[16] He, Q., Kamarianakis, Y., Jintanakul, K., Wynter, L., 2013. He, Q., Kamarianakis, Y., Jintanakul, K., Wynter, L., 2013 0.32
Incident duration prediction with hybrid tree-based quantile regression, in: Advances in dynamic network modeling in complex transportation systems. 複合木に基づく量子レグレッションを用いたインシデント時間予測:複雑な輸送システムにおける動的ネットワークモデリングの進歩 0.78
Springer, pp. 287–305. スプリンガー、p.287-305。 0.56
[17] Hojati, A., Ferreira, L., Charles, P., Kabit, M., 2012. [17]Hojati, A., Ferreira, L., Charles, P., Kabit, M., 2012 0.39
Analysing freeway traffic incident duration using an australian data set. オーストラリアのデータを用いた高速道路交通インシデント時間の解析 0.81
Road and Transport Research 21, 16–28. 道路交通研究21,16-28。 0.36
[18] Hojati], A.T., Ferreira, L., Washington, S., Charles, P., Shobeirinejad, A., 2014. ホジャティ, A.T., Ferreira, L., Washington, S., Charles, P., Shobeirinejad, A., 2014 0.65
Modelling total duration of traffic incidents including incident detection and recovery time. インシデント検出とリカバリ時間を含むトラフィックインシデントの総持続時間をモデル化する。 0.69
Accident Analysis & Prevention 71, 296 – 305. 事故解析と予防 71, 296 – 305。 0.76
URL: http://www.sciencedi rect.com/science/art icle/pii/ S0001457514001791, doi:https://doi.org/ 10.1016/j.aap.2014.0 6.006. URL: http://www.sciencedi rect.com/science/art icle/pii/S0001457514 001791, doi:https://doi.org/ 10.1016/j.aap.2014.0 6.006 0.18
[19] Hou, L., Lao, Y., Wang, Y., Zhang, Z., Zhang, Y., Li, Z., 2013. [19]Hou, L., Lao, Y., Wang, Y., Zhang, Z., Zhang, Y., Li, Z., 2013 0.40
Modeling freeway incident response time: A mechanism-based approach. 高速道路インシデント応答時間のモデリング: メカニズムベースのアプローチ。 0.74
Transportation Research Part C: Emerging Technologies 28, 87 – 100. 輸送研究部C:新興技術28号87号-100号機。 0.71
URL: http://www.sciencedi rect.com/science/art icle/pii/ S0968090X12001519, doi:https://doi.org/ 10.1016/j.trc.2012.1 2.005.euroTransporta tion: selectedpaperfromthe EWGTMeeting, Padova, September 2009. URL: http://www.sciencedi rect.com/science/art icle/pii/S0968090X12 001519, doi:https://doi.org/ 10.1016/j.trc.2012.1 2.005.euroTransporta tion: selectedpaperfromthe EWGTMeeting, Padova, 2009 0.20
[20] Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., Liu, T.Y., 2017. [20] Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., Liu, T.Y., 2017
訳抜け防止モード: [20 ] Ke, G., Meng, Q., Finley, T. Wang, T., Chen, W., Ma, W. ああ、Q.、Liu、T.Y.、2017。
0.87
Lightgbm: A highly efficient gradient boosting decision tree. Lightgbm: 意思決定ツリーの効率的な勾配向上。 0.76
Advances in neural information processing systems 30, 3146–3154. 神経情報処理システム30,3146-3154の進歩。 0.81
[21] Knapen,L. 21]knapen,l。 0.53
,Bellemans,T. とBellemans,T。 0.75
,Usman,M. ,Janssens,D. とUsman,M。 とJanssens,D。 0.71
,Wets,G. ,2014. 、Wets,G。 ,2014. 0.42
Withindayreschedulin gmicrosimulationcomb inedwithmacrosimulat ed traffic. 日中マイクロシミュレートとマクロシミュレートされたトラフィック 0.26
Transportation Research Part C: Emerging Technologies 45, 99–118. 輸送研究部C:新興技術45, 99-118。 0.86
[22] Kuang, L., Yan, H., Zhu, Y., Tu, S., Fan, X., 2019. [22]Kuang, L., Yan, H., Zhu, Y., Tu, S., Fan, X., 2019 0.40
Predicting duration of traffic accidents based on cost-sensitive bayesian network and weighted k-nearest neighbor. コスト感受性ベイズネットワークと重み付きkアレスト近傍の交通事故の予測期間 0.73
Journal of Intelligent Transportation Systems 23, 161–174. ジャーナル・オブ・インテリジェント・トランスポーテーション・システムズ23,161–174。 0.42
[23] Lee, Y., Wei, C.H., 2010. [23] Lee, Y., Wei, C.H., 2010 0.45
A computerized feature selection method using genetic algorithms to forecast freeway accident duration times. 遺伝的アルゴリズムを用いた高速道路事故継続時間予測のための特徴抽出手法 0.72
Computer-Aided Civil and Infrastructure Engineering 25, 132–148. コンピュータ支援土木工学25,132-148。 0.64
[24] li, R., 2014. [24] li, R., 2014 0.36
Traffic incident duration analysis and prediction models based on the survival analysis approach. サバイバル分析手法に基づく交通インシデント継続時間解析と予測モデル 0.66
IET Intelligent Transport Systems 9. IETインテリジェントトランスポートシステム9。 0.65
doi:10.1049/iet-its. 2014.0036. doi:10.1049/iet-its. 2014.0036。 0.22
[25] Li, R., Pereira, F.C., Ben-Akiva, M.E., 2015. [25] Li, R., Pereira, F.C., Ben-Akiva, M.E., 2015 0.45
Competing risks mixture model for traffic incident duration prediction. トラフィックインシデント継続時間予測のための競合リスク混合モデル 0.82
Accident Analysis & Prevention 75, 192–201. 事故解析・予防75,192–201。 0.40
[26] Li, R., Pereira, F.C., Ben-Akiva, M.E., 2018. [26] Li, R., Pereira, F.C., Ben-Akiva, M.E., 2018 0.45
Overview of traffic incident duration analysis and prediction. 交通インシデント継続時間解析と予測の概要 0.70
European transport research review 10, 22. european transport research review 10, 22 (英語) 0.86
[27] Li, R., Shang, P., 2014. [27] Li, R., Shang, P., 2014 0.38
Incident duration modeling using flexible parametric hazard-based models. フレキシブルパラメトリックハザードモデルを用いたインシデント継続時間モデル 0.78
Computational intelligence and neuroscience 2014, 723427. コンピュータ・インテリジェンスと神経科学 2014 723427。 0.71
URL: http://dx.doi.org/10 .1155/2014/723427, doi:10.1155/2014/723 427. URL: http://dx.doi.org/10 .1155/2014/723427, doi:10.1155/2014/723 427 0.17
[28] Liu, F.T., Ting, K.M., Zhou, Z.H., 2008. [28]Liu, F.T., Ting, K.M., Zhou, Z.H., 2008 0.43
Isolation forest, in: 2008 eighth ieee international conference on data mining, IEEE. isolation forest, in: 2008 第8回ieee international conference on data mining, ieee(英語) 0.77
pp. 413–422. pp. 413-422。 0.61
[29] Lopes, J., Bento, J., Pereira, F.C., Ben-Akiva, M., 2013. [29] Lopes, J., Bento, J., Pereira, F.C., Ben-Akiva, M., 2013 0.48
Dynamic forecast of incident clearance time using adaptive artificial neural network [30] Lundberg, S., Lee, S.I., 2017. 適応型ニューラルネットワークを用いたインシデントクリアランス時間の動的予測 [30] Lundberg, S., Lee, S.I., 2017 0.84
A unified approach to interpreting model predictions. モデル予測を統一的に解釈するアプローチ。 0.82
arXiv preprint arXiv:1705.07874 . arXiv preprint arXiv:1705.07874 0.34
[31] Ma, X., Ding, C., Luan, S., Wang, Y., Wang, Y., 2017. [31]Ma, X., Ding, C., Luan, S., Wang, Y., Wang, Y., 2017 0.40
Prioritizing influential factors for freeway incident clearance time prediction using the [32] Mao, T., Mihgitg, A.S., Chen, F., Vu, H.L., 2021. 32] mao, t., mihgitg, a.s., chen, f., vu, h.l., 2021を用いた高速道路事故発生時刻予測に影響を及ぼす要因の優先順位付け 0.72
Boosted genetic algorithm using machine learning for traffic control optimization. トラヒック制御最適化のための機械学習を用いた強化遺伝的アルゴリズム 0.72
IEEE [33] Mihaita, A.S., Liu, Z., Cai, C., Rizoiu, M., 2019. IEEE[33] Mihaita, A.S., Liu, Z., Cai, C., Rizoiu, M., 2019 0.44
Arterial incident duration prediction using a bi-level framework of extreme gradient-tree [34] Moosavi,S. 極勾配木[34]Moosavi,Sの2レベルフレームワークを用いた動脈インシデント持続時間予測 0.76
,Samavatian,M.H.,Par thasarathy,S. サマヴァティアン、m.h.、パルタサラシー。 0.36
,Ramnath,R. ,Ramnath,R。 0.41
,2019. Acountrywidetrafficaccidentdataset. ,2019. acountrywidetraffica ccidentdatasetの略。 0.32
arXivpreprintarXiv:1 906.05409 [35] Nguyen, H., Cai, C., Chen, F., 2017. arXivpreprintarXiv:1 906.05409 [35] Nguyen, H., Cai, C., Chen, F., 2017 0.48
Automatic classification of traffic incident’s severity using machine learning approaches. 機械学習アプローチによる交通インシデントの重大度の自動分類。 0.80
IET Intelligent [36] Schrank, D., Lomax, T., 2002. iet intelligent [36] schrank, d., lomax, t., 2002年。 0.41
The 2002 urban mobility report (college station, tx: Texas transportation institute, texas a&m university, june). 2002年のアーバンモビリティレポート (college station, tx: texas transportation institute, texas a&m university, june)。 0.80
[37] Shafiei,S. [37] シャフィー。 0.45
,Mihaita,A. とMihaita,A。 0.73
,Nguyen,H. ,Nguyen,H。 0.40
,Bentley,C. とBentley,C。 0.75
,Cai,C. ,2020. ,Cai,C。 ,2020. 0.63
Short-termtrafficpredictionundernon- recurrentincidentcon ditionsintegrating [38] Smith, K., Smith, B., 2001. 38] Smith, K., Smith, B., 2001 0.23
Forecasting the Clearance Time of Freeway Accidents Final report of ITS Center project: Incident Duration [39] Sullivan, E.C., 1997. 高速道路事故のクリアランス時間の予測 : 1997年e.c.サリヴァン事故発生期間 [39] センタープロジェクトの最終報告 0.75
New model for predicting freeway incidents and incident delays. 高速道路事故の予測と事故遅延の新しいモデル 0.79
Journal of Transportation Engineering 123, 267–275. journal of transportation engineering 123, 267-275を参照。 0.64
[40] Valenti, G., Lelli, M., Cucina, D., 2010. [40] Valenti, G., Lelli, M., Cucina, D., 2010 0.40
A comparative study of models for the incident duration prediction. インシデント継続時間予測モデルの比較研究 0.54
European Transport Research [41] Wen, T., Mihgi£g, A.S., Nguyen, H., Cai, C., Chen, F., 2018. 欧州運輸研究会(European Transport Research) [41] Wen, T., Mihgi£g, A.S., Nguyen, H., Cai, C., Chen, F., 2018
訳抜け防止モード: 欧州交通研究[41 ]Wen, T., Mihgi£g A.S., Nguyen, H., Cai, C., Chen 2018年。
0.79
Integrated incident decision-support using traffic simulation and data-driven [42] Wen, Y., Chen, S.Y., Xiong, Q.Y., Han, R.B., Chen, S.Y., 2013. 交通シミュレーションとデータ駆動型 [42] Wen, Y., Chen, S.Y., Xiong, Q.Y., Han, R.B., Chen, S.Y., 2013 0.83
Traffic incident duration prediction based on k-nearest neighbor, in: Applied [43] Yi, D., Su, J., Liu, C., Quddus, M., Chen, W.H., 2019. 交通事故発生期間の予測はk-nearest neighbor, in: Applied [43] Yi, D., Su, J., Liu, C., Quddus, M., Chen, W.H., 2019。 0.87
A machine learning based personalized system for driving state recognition. 運転状態認識のための機械学習に基づくパーソナライズシステム 0.79
Trans[44] Yu, B., Xia, Z., 2012. Trans[44] Yu, B., Xia, Z., 2012 0.38
A methodology for freeway incident duration prediction using computerized historical database, in: The Twelfth COTA [45] Zhan, C., Gan, A., Hadi, M., 2011. a methodology for freeway incident duration prediction using computerized historical database, in: the 12fth cota [45] zhan, c., gan, a., hadi, m., 2011
訳抜け防止モード: コンピュータ化された歴史データベースを用いた高速道路事故発生時間予測手法 第12回COTA [45 ]Zhan, C. Gan , A. , Hadi , M. , 2011
0.81
Prediction of lane clearance time of freeway incidents using the m5p tree algorithm. m5p木アルゴリズムによる高速道路事故の車線クリアランス時間の予測 0.77
IEEE Transactions [46] Zou, Y., Ye, X., Henrickson, K., Tang, J., Wang, Y., 2018. IEEE Transactions [46] Zou, Y., Ye, X., Henrickson, K., Tang, J., Wang, Y., 2018 0.40
Jointly analyzing freeway traffic incident clearance and response time using a aを用いた高速道路交通インシデントクリアランスと応答時間の共同分析 0.77
Review 2, 103–111. models. 103-111頁。 モデル。 0.60
Transportation research record 2672, 247–256. 交通調査記録2672, 247–256。 0.74
Mechanics and Materials, Trans Tech Publ. メカニクスと材料、トランステク。 0.54
pp. 1675–1681. 1675-1681頁。 0.68
portation Research Part C: Emerging Technologies 105, 241–261. 移植研究部C:新興技術105, 241–261。 0.81
International Conference of Transportation Professionals, pp. 3463–3474. 国際運輸専門家会議、3463-3474。 0.53
doi:10.1061/97807844 12442.351. doi:10.1061/97807844 12442.351 0.16
on Intelligent Transportation Systems 12, 1549–1557. 知的交通システム12、1549-1557。 0.64
doi:10.1109/TITS.201 1.2161634. doi:10.1109/tits.201 1.2161634 0.13
models. gradient boosting decision trees method. モデル。 勾配ブースティング決定木法。 0.65
IEEE Transactions on Intelligent Transportation Systems 18, 2303–2310. ieee transactions on intelligent transportation systems 18, 2303-2310を参照。 0.61
Transactions on Intelligent Transportation Systems . インテリジェントトランスポーテーションシステムに関するトランザクション 0.62
boosting. CoRR abs/1905.12254. ブースティング CoRR abs/1905.12254。 0.25
URL: http://arxiv.org/abs /1905.12254, arXiv:1905.12254. URL: http://arxiv.org/abs / 1905.12254, arXiv: 1905.12254 0.22
. Transport Systems 11, 615–623. . 輸送システム11,615-623。 0.62
data-driven models and traffic simulation, in: Transportation Research Board 99th Annual Meeting, pp. データ駆動モデルと交通シミュレーション in: transportation research board 99th annual meeting, pp. 0.85
–. Forecasting. Technical Report. –. 予報。 技術報告。 0.40
Smart Travel Lab Report No. smart travel labのレポートno。 0.80
STL-2001-01. stl-2001-01所属。 0.35
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 26 of 27 27ページ26頁。 0.78
英語(論文から抽出)日本語訳スコア
copula-based approach. copulaベースのアプローチ。 0.61
Transportation Research Part C: Emerging Technologies 86, 171–182. 輸送研究部C:新興技術86、171-182。 0.78
URL: https://www.scienced irect.com/science/ article/pii/S0968090 X17303108, doi:https://doi.org/ 10.1016/j.trc.2017.1 1.004. URL: https://www.scienced irect.com/science/ article/pii/S0968090 X17303108, doi:https://doi.org/ 10.1016/j.trc.2017.1 1.004 0.17
Incident duration prediction using Machine Learning 機械学習を用いたインシデント時間予測 0.80
Grigorev et al : Preprint submitted to Elsevier Grigorev et al : Elsevierに提出されたプレプリント 0.78
Page 27 of 27 27ページ。 0.53
                                                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。