論文の概要: Reinforcement Learning with Iterative Reasoning for Merging in Dense
Traffic
- arxiv url: http://arxiv.org/abs/2005.11895v1
- Date: Mon, 25 May 2020 02:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 06:12:33.691777
- Title: Reinforcement Learning with Iterative Reasoning for Merging in Dense
Traffic
- Title(参考訳): 密集交通の融合のための反復推論による強化学習
- Authors: Maxime Bouton, Alireza Nakhaei, David Isele, Kikuo Fujimura, and Mykel
J. Kochenderfer
- Abstract要約: 密集した交通量を減らすことは、自動運転車にとって難しい課題だ。
本稿では,強化学習とゲーム理論を組み合わせて,融合行動の学習を行う。
- 参考スコア(独自算出の注目度): 41.46201285202203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maneuvering in dense traffic is a challenging task for autonomous vehicles
because it requires reasoning about the stochastic behaviors of many other
participants. In addition, the agent must achieve the maneuver within a limited
time and distance. In this work, we propose a combination of reinforcement
learning and game theory to learn merging behaviors. We design a training
curriculum for a reinforcement learning agent using the concept of level-$k$
behavior. This approach exposes the agent to a broad variety of behaviors
during training, which promotes learning policies that are robust to model
discrepancies. We show that our approach learns more efficient policies than
traditional training methods.
- Abstract(参考訳): 他の多くの参加者の確率的な振る舞いを推論する必要があるため、密集した交通の確保は自動運転車にとって難しい課題である。
さらに、エージェントは限られた時間と距離で操作を行なわなければならない。
本研究では,強化学習とゲーム理論の組み合わせを提案し,マージ行動を学習する。
我々は,レベル=k$の行動の概念を用いて,強化学習エージェントの訓練カリキュラムを設計する。
このアプローチは、トレーニング中にエージェントをさまざまな行動にさらし、不一致のモデル化に堅牢な学習ポリシを促進する。
従来の学習方法よりも効率的な政策を学習していることを示す。
関連論文リスト
- Analyzing Closed-loop Training Techniques for Realistic Traffic Agent Models in Autonomous Highway Driving Simulations [4.486517725808305]
我々は,高速道路走行シミュレーションのための閉ループ手法に着目し,異なる訓練原理の広範な比較分析を行う。
我々は, (i) オープンループ対クローズドループマルチエージェントトレーニング, (ii) 逆逆対決定論的指導トレーニング, (iii) 強化損失の影響, (iv) ログ再生エージェントと併用したトレーニングの影響を実験的に比較し, 現実的なエージェントモデリングに適したトレーニングテクニックを同定した。
論文 参考訳(メタデータ) (2024-10-21T13:16:58Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Developing Driving Strategies Efficiently: A Skill-Based Hierarchical
Reinforcement Learning Approach [0.7373617024876725]
強化学習はドライバポリシをモデル化するための一般的なツールです。
動作プリミティブを高レベルなアクションとして設計し,使用する,スキルベースの"階層駆動戦略を提案する。
論文 参考訳(メタデータ) (2023-02-04T15:09:51Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Affordance-based Reinforcement Learning for Urban Driving [3.507764811554557]
経路点と低次元視覚表現を用いた最適制御ポリシーを学習するための深層強化学習フレームワークを提案する。
スクラッチから訓練されたエージェントは、車線追従のタスクを学習し、区間間を走り回り、密集した交通状況でも他のアクターや信号機の前で立ち止まることを実証する。
論文 参考訳(メタデータ) (2021-01-15T05:21:25Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。