論文の概要: Learning to Control Autonomous Fleets from Observation via Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.14833v2
- Date: Fri, 25 Aug 2023 14:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 23:34:32.213363
- Title: Learning to Control Autonomous Fleets from Observation via Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習による観察から自律艦隊の制御
- Authors: Carolin Schmidt, Daniele Gammelli, Francisco Camara Pereira, Filipe
Rodrigues
- Abstract要約: オフライン強化学習のレンズによる自律移動システム制御の形式化を提案する。
オフラインRLは、経済的にクリティカルなシステムにおいて、RLベースのソリューションを適用する上で有望なパラダイムであることを示す。
- 参考スコア(独自算出の注目度): 3.9121134770873733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Mobility-on-Demand (AMoD) systems are an evolving mode of
transportation in which a centrally coordinated fleet of self-driving vehicles
dynamically serves travel requests. The control of these systems is typically
formulated as a large network optimization problem, and reinforcement learning
(RL) has recently emerged as a promising approach to solve the open challenges
in this space. Recent centralized RL approaches focus on learning from online
data, ignoring the per-sample-cost of interactions within real-world
transportation systems. To address these limitations, we propose to formalize
the control of AMoD systems through the lens of offline reinforcement learning
and learn effective control strategies using solely offline data, which is
readily available to current mobility operators. We further investigate design
decisions and provide empirical evidence based on data from real-world mobility
systems showing how offline learning allows to recover AMoD control policies
that (i) exhibit performance on par with online methods, (ii) allow for
sample-efficient online fine-tuning and (iii) eliminate the need for complex
simulation environments. Crucially, this paper demonstrates that offline RL is
a promising paradigm for the application of RL-based solutions within
economically-critical systems, such as mobility systems.
- Abstract(参考訳): 自律型モビリティ・オン・デマンド(Autonomous Mobility-on-Demand、AMoD)システムは、中央に調整された自動運転車群が移動要求を動的に処理する、進化する交通手段である。
これらのシステムの制御は、一般に大規模なネットワーク最適化問題として定式化され、強化学習(RL)は、この分野のオープンな課題を解決するための有望なアプローチとして最近登場した。
最近の集中型rlアプローチは、オンラインデータからの学習にフォーカスし、現実世界の輸送システム内のインタラクションのサンプルコストを無視する。
これらの制約に対処するために、オフライン強化学習のレンズを用いてAMoDシステムの制御を形式化し、オフラインデータのみを用いて効果的な制御戦略を学ぶことを提案する。
オフライン学習がAMoD制御ポリシーの回復にどう役立つかを示す実世界のモビリティシステムからのデータに基づく実証的証拠を提供する。
(i)オンライン手法と同等のパフォーマンスを示す。
(ii)サンプル効率の良いオンライン微調整と
(iii)複雑なシミュレーション環境の必要性をなくす。
本稿では,オフラインRLが,移動システムのような経済的にクリティカルなシステムにRLベースのソリューションを適用する上で有望なパラダイムであることを示す。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。