論文の概要: Formulation and validation of a car-following model based on deep
reinforcement learning
- arxiv url: http://arxiv.org/abs/2109.14268v1
- Date: Wed, 29 Sep 2021 08:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 21:58:10.220267
- Title: Formulation and validation of a car-following model based on deep
reinforcement learning
- Title(参考訳): 深部強化学習に基づく自動車追従モデルの定式化と検証
- Authors: Fabian Hart, Ostap Okhrin, Martin Treiber
- Abstract要約: 深部強化学習に基づく新車追従モデルの提案と検証を行う。
当社のモデルは, 自由・自動車追従体制において, 外部に与えられた報酬関数を最大化するように訓練されている。
これらの報酬関数のパラメータは、Intelligent Driver Modelのような従来のモデルに類似している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and validate a novel car following model based on deep
reinforcement learning. Our model is trained to maximize externally given
reward functions for the free and car-following regimes rather than reproducing
existing follower trajectories. The parameters of these reward functions such
as desired speed, time gap, or accelerations resemble that of traditional
models such as the Intelligent Driver Model (IDM) and allow for explicitly
implementing different driving styles. Moreover, they partially lift the
black-box nature of conventional neural network models. The model is trained on
leading speed profiles governed by a truncated Ornstein-Uhlenbeck process
reflecting a realistic leader's kinematics.
This allows for arbitrary driving situations and an infinite supply of
training data. For various parameterizations of the reward functions, and for a
wide variety of artificial and real leader data, the model turned out to be
unconditionally string stable, comfortable, and crash-free. String stability
has been tested with a platoon of five followers following an artificial and a
real leading trajectory. A cross-comparison with the IDM calibrated to the
goodness-of-fit of the relative gaps showed a higher reward compared to the
traditional model and a better goodness-of-fit.
- Abstract(参考訳): 我々は,深層強化学習に基づく新しい車追従モデルを提案し,検証する。
本モデルでは,既存の追従軌道を再現するのではなく,車追従系と自由系に対して与えられた報酬関数の最大化を訓練する。
所望の速度、時間ギャップ、加速度などの報酬関数のパラメータは、Intelligent Driver Model (IDM)のような従来のモデルに似ており、異なる運転スタイルを明示的に実装することができる。
さらに、従来のニューラルネットワークモデルのブラックボックスの性質を部分的に引き上げる。
このモデルは、現実的なリーダーのキネマティクスを反映したornstein-uhlenbeckプロセスによって制御されるリードスピードプロファイルに基づいて訓練される。
これにより任意の運転状況とトレーニングデータの無限供給が可能になる。
報酬関数の様々なパラメータ化や、様々な人工的および実際のリーダーデータに対して、モデルは無条件にストリング安定し、快適で、クラッシュフリーであることが判明した。
弦の安定性は、人工軌道と真のリード軌道に続く5人の従者からなる小隊でテストされている。
相対的ギャップの良さに比例したIDMの相互比較では,従来のモデルよりも高い報奨率を示し,適合性も良好であった。
関連論文リスト
- MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - LORD: Large Models based Opposite Reward Design for Autonomous Driving [11.717821043996352]
LORDは、望ましくない言語目標を通じて、対向的な報酬設計に基づく新しい大モデルである。
提案手法は,大規模な事前学習モデルのパワーを有効活用し,安全で高機能な自動運転を実現するための有効性を示す。
論文 参考訳(メタデータ) (2024-03-27T19:30:06Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Tricycle Model to Accurately Control an Autonomous Racecar with Locked
Differential [71.53284767149685]
自動オープンホイールレースカーの側面力学に対するロックディファレンシャルの影響をモデル化するための新しい定式化を提案する。
本稿では,マイクロステップの離散化手法を用いて,動的に線形化し,実時間実装に適した予測を行う。
論文 参考訳(メタデータ) (2023-12-22T16:29:55Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - EnsembleFollower: A Hybrid Car-Following Framework Based On
Reinforcement Learning and Hierarchical Planning [22.63087292154406]
先進的な人間的な車追従を実現するための階層的計画枠組みを提案する。
EnsembleFollowerフレームワークには、複数の低レベルの自動車追従モデルを司法的に管理する、高レベルの強化学習ベースのエージェントが含まれている。
提案手法は,HighDデータセットから実世界の運転データに基づいて評価する。
論文 参考訳(メタデータ) (2023-08-30T12:55:02Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - An active inference model of car following: Advantages and applications [6.905724739762358]
ドライバープロセスモデルは、自動および自律走行車技術のテスト、検証、開発において中心的な役割を果たす。
データ駆動機械学習モデルは、ルールベースのモデルよりも能力が高いが、大規模なトレーニングデータセットの必要性と、解釈可能性の欠如によって制限されている。
本稿では,解釈可能性を維持しつつ,データ駆動モデルに匹敵する振る舞いの柔軟性を有するアクティブ推論を用いたモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-27T13:39:26Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Iterative Semi-parametric Dynamics Model Learning For Autonomous Racing [2.40966076588569]
本稿では,ニューラルネットワークを用いた反復学習セミパラメトリックモデルを自律レースの課題に適用する。
我々のモデルは純粋にパラメトリックモデルよりも正確に学習でき、純粋に非パラメトリックモデルよりもより一般化できることを示す。
論文 参考訳(メタデータ) (2020-11-17T16:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。