論文の概要: Offline Reinforcement Learning for Road Traffic Control
- arxiv url: http://arxiv.org/abs/2201.02381v1
- Date: Fri, 7 Jan 2022 09:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:03:35.244991
- Title: Offline Reinforcement Learning for Road Traffic Control
- Title(参考訳): 道路交通制御のためのオフライン強化学習
- Authors: Mayuresh Kunjir and Sanjay Chawla
- Abstract要約: モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストを組み込んだデータセットからマルコフ決定プロセス(MDP)を推論する。
A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。
- 参考スコア(独自算出の注目度): 12.251816544079306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traffic signal control is an important problem in urban mobility with a
significant potential of economic and environmental impact. While there is a
growing interest in Reinforcement Learning (RL) for traffic control, the work
so far has focussed on learning through interactions which, in practice, is
costly. Instead, real experience data on traffic is available and could be
exploited at minimal costs. Recent progress in offline or batch RL has enabled
just that. Model-based offline RL methods, in particular, have been shown to
generalize to the experience data much better than others. We build a
model-based learning framework, A-DAC, which infers a Markov Decision Process
(MDP) from dataset with pessimistic costs built in to deal with data
uncertainties. The costs are modeled through an adaptive shaping of rewards in
the MDP which provides better regularization of data compared to the prior
related work. A-DAC is evaluated on a complex signalized roundabout using
multiple datasets varying in size and in batch collection policy. The
evaluation results show that it is possible to build high performance control
policies in a data efficient manner using simplistic batch collection policies.
- Abstract(参考訳): 交通信号制御は都市移動において重要な問題であり、経済的および環境的な影響の可能性を秘めている。
交通制御のための強化学習(rl)への関心は高まっているが、これまでの研究は、実際にコストがかかるインタラクションを通じた学習にフォーカスしている。
代わりに、トラフィックに関する実体験データは利用可能であり、最小限のコストで活用できる。
オフラインまたはバッチRLの最近の進歩は、まさにそれを可能にした。
モデルベースのオフラインRL法は、特に、経験データを他の方法よりもはるかに良く一般化することが示されている。
モデルベースの学習フレームワークであるA-DACを構築し、データ不確実性に対処するために、悲観的なコストでデータセットからマルコフ決定プロセス(MDP)を推論する。
コストは、MDPのアダプティブな報酬形成によってモデル化され、以前の関連する作業と比較して、データの規則化が向上する。
A-DACは、サイズやバッチ収集ポリシーによって異なる複数のデータセットを用いて、複雑な信号化ラウンドアバウトで評価される。
評価結果から, 簡便なバッチ収集ポリシを用いて, 高性能な制御ポリシをデータ効率よく構築できることが示唆された。
関連論文リスト
- OffLight: An Offline Multi-Agent Reinforcement Learning Framework for Traffic Signal Control [1.2540429019617183]
我々は、TSCデータセットにおける異種行動ポリシーを処理するために設計された新しいオフラインMARLフレームワークであるOffLightを紹介する。
OffLightは、分散シフトの修正にImportance Smpling(IS)、高品質なエクスペリエンスにフォーカスするためにReturn-Based Prioritized Smpling(RBPS)を組み込んでいる。
OffLightは既存のオフラインRL手法よりも優れており、平均走行時間の7.8%、待ち時間の長さの11.2%にまで短縮されている。
論文 参考訳(メタデータ) (2024-11-10T21:26:17Z) - OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - Model-based Trajectory Stitching for Improved Offline Reinforcement
Learning [7.462336024223669]
モデルに基づくデータ拡張戦略であるトラジェクトリ・スティッチ(TS)を提案する。
TSは、以前に切断された状態と結合する目に見えないアクションを導入する。
このデータ拡張戦略と行動クローニング(BC)を併用することにより,行動閉ざされたポリシーを改善できることを示す。
論文 参考訳(メタデータ) (2022-11-21T16:00:39Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。