論文の概要: Online No-regret Model-Based Meta RL for Personalized Navigation
- arxiv url: http://arxiv.org/abs/2204.01925v1
- Date: Tue, 5 Apr 2022 01:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:04:12.812238
- Title: Online No-regret Model-Based Meta RL for Personalized Navigation
- Title(参考訳): パーソナライズナビゲーションのためのオンラインno-regretモデルに基づくmeta rl
- Authors: Yuda Song, Ye Yuan, Wen Sun, Kris Kitani
- Abstract要約: 本稿では,現在のユーザの動態に迅速に適合するオンラインノリグレートモデルに基づくRL手法を提案する。
理論的解析により,本手法は非回帰アルゴリズムであり,無依存設定における収束率を提供する。
実世界のユーザデータを60時間以上にわたって分析した結果,衝突回数を60%以上削減できることがわかった。
- 参考スコア(独自算出の注目度): 37.82017324353145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interaction between a vehicle navigation system and the driver of the
vehicle can be formulated as a model-based reinforcement learning problem,
where the navigation systems (agent) must quickly adapt to the characteristics
of the driver (environmental dynamics) to provide the best sequence of
turn-by-turn driving instructions. Most modern day navigation systems (e.g,
Google maps, Waze, Garmin) are not designed to personalize their low-level
interactions for individual users across a wide range of driving styles (e.g.,
vehicle type, reaction time, level of expertise). Towards the development of
personalized navigation systems that adapt to a variety of driving styles, we
propose an online no-regret model-based RL method that quickly conforms to the
dynamics of the current user. As the user interacts with it, the navigation
system quickly builds a user-specific model, from which navigation commands are
optimized using model predictive control. By personalizing the policy in this
way, our method is able to give well-timed driving instructions that match the
user's dynamics. Our theoretical analysis shows that our method is a no-regret
algorithm and we provide the convergence rate in the agnostic setting. Our
empirical analysis with 60+ hours of real-world user data using a driving
simulator shows that our method can reduce the number of collisions by more
than 60%.
- Abstract(参考訳): 車両ナビゲーションシステムと車両のドライバとのインタラクションはモデルベースの強化学習問題として定式化することができ、ナビゲーションシステム(エージェント)はドライバの特性(環境力学)に迅速に適応し、ターンバイターン運転指示の最良のシーケンスを提供する必要がある。
現代のほとんどのナビゲーションシステム(例えば、Googleマップ、Waze、Garmin)は、幅広い運転スタイル(例えば、車両の種類、反応時間、専門知識のレベル)で、個々のユーザーに対する低レベルなインタラクションをパーソナライズするために設計されていない。
様々な運転スタイルに適応したパーソナライズドナビゲーションシステムの開発に向けて,現在のユーザのダイナミクスに迅速に適合するオンラインno-regretモデルに基づくrl方式を提案する。
ユーザがそれと対話すると、ナビゲーションシステムは素早くユーザ固有のモデルを構築し、そこからモデル予測制御を使用してナビゲーションコマンドを最適化する。
このようにポリシーをパーソナライズすることで、ユーザのダイナミクスにマッチする運転指示を適切に行うことができる。
理論的解析により,本手法は非回帰アルゴリズムであり,無依存設定における収束率を提供する。
運転シミュレータを用いて60時間以上の実世界のユーザデータを用いた実験分析を行い,衝突回数を60%以上削減できることを示した。
関連論文リスト
- MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - EditFollower: Tunable Car Following Models for Customizable Adaptive Cruise Control Systems [28.263763430300504]
本研究では,データ駆動型自動車追従モデルを提案する。
本モデルは,運転者の社会的嗜好を考慮に入れたACCシステムの開発に有用な知見を提供する。
論文 参考訳(メタデータ) (2024-06-23T15:04:07Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Offline Reinforcement Learning for Visual Navigation [66.88830049694457]
ReViNDは、ロボットナビゲーションのための最初のオフラインRLシステムで、これまで収集されたデータを利用して、現実世界でユーザーが指定した報酬関数を最適化する。
ReViNDは、このデータセットからのオフライントレーニングのみを使用して、遠方の目標にナビゲートできることを示し、ユーザ指定の報酬関数に基づいて、質的に異なる振る舞いを示す。
論文 参考訳(メタデータ) (2022-12-16T02:23:50Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。