論文の概要: Non-zero-sum Game Control for Multi-vehicle Driving via Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2302.03958v1
- Date: Wed, 8 Feb 2023 09:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:46:13.426424
- Title: Non-zero-sum Game Control for Multi-vehicle Driving via Reinforcement
Learning
- Title(参考訳): 強化学習によるマルチ車両駆動のためのノンゼロサムゲーム制御
- Authors: Xujie Song, Zexi Lin
- Abstract要約: 本稿では,非ゼロサムゲームとしてマルチサイクル駆動シナリオを構築した。
決定はナッシュ均衡駆動戦略によってなされる。
我々のアルゴリズムは、加速度と操舵角を直接制御することで、完全に駆動できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a vehicle drives on the road, its behaviors will be affected by
surrounding vehicles. Prediction and decision should not be considered as two
separate stages because all vehicles make decisions interactively. This paper
constructs the multi-vehicle driving scenario as a non-zero-sum game and
proposes a novel game control framework, which consider prediction, decision
and control as a whole. The mutual influence of interactions between vehicles
is considered in this framework because decisions are made by Nash equilibrium
strategy. To efficiently obtain the strategy, ADP, a model-based reinforcement
learning method, is used to solve coupled Hamilton-Jacobi-Bellman equations.
Driving performance is evaluated by tracking, efficiency, safety and comfort
indices. Experiments show that our algorithm could drive perfectly by directly
controlling acceleration and steering angle. Vehicles could learn interactive
behaviors such as overtaking and pass. In summary, we propose a non-zero-sum
game framework for modeling multi-vehicle driving, provide an effective way to
solve the Nash equilibrium driving strategy, and validate at non-signalized
intersections.
- Abstract(参考訳): 車両が道路を走行するとき、その挙動は周囲の車両に影響される。
全ての車両が対話的に意思決定を行うため、予測と決定は2つの別々の段階として考慮すべきではない。
本稿では,非ゼロサムゲームとしてマルチサイクル駆動シナリオを構築し,予測,決定,制御全体を考慮した新しいゲーム制御フレームワークを提案する。
車両間の相互作用の相互影響は、ナッシュ均衡戦略によって決定されるため、この枠組みで考慮される。
この戦略を効率的に得るために、ハミルトン・ヤコビ・ベルマン連成方程式を解くためにモデルベース強化学習法adpを用いる。
運転性能は、トラッキング、効率、安全性、快適性指数によって評価される。
実験により,加速度と操舵角度を直接制御することで,我々のアルゴリズムが完全に駆動できることが判明した。
車両は乗っ取りや通行といった対話的な行動を学べる。
そこで本研究では,多車両駆動をモデル化する非ゼロサムゲームフレームワークを提案し,nash平衡駆動戦略を効果的に解決し,非信号化交差点で検証する。
関連論文リスト
- Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - A Conflicts-free, Speed-lossless KAN-based Reinforcement Learning Decision System for Interactive Driving in Roundabouts [17.434924472015812]
本稿では,ラウンドアバウンドにおける安全かつ効率的な運転行動を促進するための学習アルゴリズムを提案する。
提案アルゴリズムは、複雑なマルチサイクルラウンドアバウトにおける安全かつ効率的な運転戦略を学習するために、深層Q-ラーニングネットワークを用いる。
その結果,本システムは安定したトレーニングプロセスを維持しつつ,安全かつ効率的な運転を実現することができた。
論文 参考訳(メタデータ) (2024-08-15T16:10:25Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - Interaction-Aware Decision-Making for Autonomous Vehicles in Forced
Merging Scenario Leveraging Social Psychology Factors [7.812717451846781]
インタラクションドライバの社会的行動と個人的目的の両方を取り入れた行動モデルを考える。
我々は、他のドライバーの意図をオンラインで見積もる、後退する水平制御に基づく意思決定戦略を開発する。
論文 参考訳(メタデータ) (2023-09-25T19:49:14Z) - ReMAV: Reward Modeling of Autonomous Vehicles for Finding Likely Failure
Events [1.84926694477846]
本稿では、まず、オフライン軌道を用いて、既存の自動運転車の挙動を分析するブラックボックステストフレームワークを提案する。
実験の結果,車両衝突,道路物体衝突,歩行者衝突,オフロードステアリング事故の発生率は35,23,48,50%増加した。
論文 参考訳(メタデータ) (2023-08-28T13:09:00Z) - Decision Making for Autonomous Driving in Interactive Merge Scenarios
via Learning-based Prediction [39.48631437946568]
本稿では,他のドライバの動作から不確実性が生ずる移動トラフィックにマージする複雑なタスクに焦点を当てる。
我々はこの問題を部分的に観測可能なマルコフ決定プロセス(POMDP)とみなし、モンテカルロ木探索でオンラインに解決する。
POMDPの解決策は、接近する車に道を譲る、前方の車から安全な距離を維持する、あるいは交通に合流するといった、高いレベルの運転操作を行う政策である。
論文 参考訳(メタデータ) (2023-03-29T16:12:45Z) - Exploring the trade off between human driving imitation and safety for
traffic simulation [0.34410212782758043]
運転方針の学習において,人間の運転の模倣と安全維持との間にはトレードオフが存在することを示す。
両目的を協調的に改善する多目的学習アルゴリズム(MOPPO)を提案する。
論文 参考訳(メタデータ) (2022-08-09T14:30:19Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。