論文の概要: Learning to Control Autonomous Fleets from Observation via Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.14833v1
- Date: Tue, 28 Feb 2023 18:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 14:52:13.033862
- Title: Learning to Control Autonomous Fleets from Observation via Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習による観察から自律艦隊の制御
- Authors: Carolin Schmidt, Daniele Gammelli, Francisco Camara Pereira, Filipe
Rodrigues
- Abstract要約: オフライン強化学習のレンズによる自律移動システム制御の形式化を提案する。
オフライン学習がオンライン手法と同等の性能を示すAMoD制御ポリシーの回復を可能にすることを示す。
本稿では、オフライン強化学習が、経済的にクリティカルなシステムにおけるRLベースのソリューションの適用に有望なパラダイムであることを実証する。
- 参考スコア(独自算出の注目度): 7.111443975103331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Mobility-on-Demand (AMoD) systems are a rapidly evolving mode of
transportation in which a centrally coordinated fleet of self-driving vehicles
dynamically serves travel requests. The control of these systems is typically
formulated as a large network optimization problem, and reinforcement learning
(RL) has recently emerged as a promising approach to solve the open challenges
in this space. However, current RL-based approaches exclusively focus on
learning from online data, fundamentally ignoring the per-sample-cost of
interactions within real-world transportation systems. To address these
limitations, we propose to formalize the control of AMoD systems through the
lens of offline reinforcement learning and learn effective control strategies
via solely offline data, thus readily available to current mobility operators.
We further investigate design decisions and provide experiments on real-world
mobility systems showing how offline learning allows to recover AMoD control
policies that (i) exhibit performance on par with online methods, (ii)
drastically improve data efficiency, and (iii) completely eliminate the need
for complex simulated environments. Crucially, this paper demonstrates that
offline reinforcement learning is a promising paradigm for the application of
RL-based solutions within economically-critical systems, such as mobility
systems.
- Abstract(参考訳): 自律型モビリティ・オン・デマンド(Autonomous Mobility-on-Demand、AMoD)システムは、中央に調整された自動運転車群が移動要求を動的に行う、急速に進化する交通手段である。
これらのシステムの制御は、一般に大規模なネットワーク最適化問題として定式化され、強化学習(RL)は、この分野のオープンな課題を解決するための有望なアプローチとして最近登場した。
しかし、現在のrlベースのアプローチは、オンラインデータからの学習のみに焦点を当てており、現実世界の輸送システム内の相互作用のサンプルあたりのコストを基本的に無視している。
これらの制約に対処するために,オフライン強化学習のレンズを通してamodシステムの制御を定式化し,オフラインデータのみを通じて効果的な制御戦略を学習することを提案する。
我々はさらに設計決定を調査し,オフライン学習がamod制御ポリシーを回復させる方法を示す実世界のモビリティシステムに関する実験を行う。
(i)オンライン手法と同等のパフォーマンスを示す。
(ii)データ効率を大幅に向上させ、
(iii)複雑なシミュレーション環境の必要性を完全に排除する。
本稿では, オフライン強化学習が, モビリティシステムなどの経済的にクリティカルなシステムにRLベースのソリューションを適用する上で有望なパラダイムであることを示す。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Fully Data-Driven Approach for Realistic Traffic Signal Control Using
Offline Reinforcement Learning [18.2541182874636]
現実的な交通信号制御のための完全データ駆動・シミュレータフリーフレームワークを提案する。
我々は、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する。
従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現し,実世界の適用性も向上した。
論文 参考訳(メタデータ) (2023-11-27T15:29:21Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。