論文の概要: Uncertainty-Aware Decision Transformer for Stochastic Driving
Environments
- arxiv url: http://arxiv.org/abs/2309.16397v1
- Date: Thu, 28 Sep 2023 12:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 14:40:04.210817
- Title: Uncertainty-Aware Decision Transformer for Stochastic Driving
Environments
- Title(参考訳): 確率的運転環境における不確実性認識決定変圧器
- Authors: Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao
- Abstract要約: 環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
私たちは、様々な駆動シナリオにおけるUNRESTの優れたパフォーマンスと、不確実性推定戦略のパワーを示します。
- 参考スコア(独自算出の注目度): 37.31853034449015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (RL) has emerged as a promising framework for
learning policies without active interactions, making it especially appealing
for autonomous driving tasks. Recent successes of Transformers inspire casting
offline RL as sequence modeling, which performs well in long-horizon tasks.
However, they are overly optimistic in stochastic environments with incorrect
assumptions that the same goal can be consistently achieved by identical
actions. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer
(UNREST) for planning in stochastic driving environments without introducing
additional transition or complex generative models. Specifically, UNREST
estimates state uncertainties by the conditional mutual information between
transitions and returns, and segments sequences accordingly. Discovering the
`uncertainty accumulation' and `temporal locality' properties of driving
environments, UNREST replaces the global returns in decision transformers with
less uncertain truncated returns, to learn from true outcomes of agent actions
rather than environment transitions. We also dynamically evaluate environmental
uncertainty during inference for cautious planning. Extensive experimental
results demonstrate UNREST's superior performance in various driving scenarios
and the power of our uncertainty estimation strategy.
- Abstract(参考訳): オフライン強化学習(RL)は、アクティブな相互作用なしにポリシーを学ぶための有望なフレームワークとして現れ、特に自律運転タスクにアピールしている。
トランスフォーマーの最近の成功は、オフラインRLをシーケンスモデリングとして刺激し、長い水平タスクでうまく機能する。
しかし、同じ目標が同一の行動によって一貫して達成できるという誤った仮定を持つ確率的環境では、非常に楽観的である。
本稿では,確率駆動環境において,新たな遷移モデルや複雑な生成モデルを導入することなく計画するためのUNREST(Uncertainty-aware deciSion Transformer)を提案する。
具体的には、UNRESTは遷移と返却の間の条件付き相互情報によって状態の不確実性を推定し、それに従ってセグメントシーケンスを出力する。
UNRESTは、駆動環境の'不確実性蓄積'と'時間的局所性'の性質を発見し、環境遷移よりもエージェントアクションの真の結果から学ぶために、決定トランスフォーマーのグローバルリターンを、不確実な未解決のリターンに置き換える。
また、慎重な計画を立てる際の環境不確実性を動的に評価する。
広範囲な実験結果は、様々な運転シナリオにおけるunrestの優れた性能と、不確実性推定戦略のパワーを示している。
関連論文リスト
- Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors [2.773055342671194]
本研究では,自然主義的人間運転先行と強化学習技術を用いた自然逆シナリオ生成ソリューションを提案する。
本研究は,本モデルにより,自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオを生成できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:58:56Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Augmenting Reinforcement Learning with Transformer-based Scene
Representation Learning for Decision-making of Autonomous Driving [27.84595432822612]
本研究では,強化学習による意思決定能力の向上を目的としたScene-Rep Transformerを提案する。
マルチステージトランスフォーマー(MST)エンコーダは、エゴ車とその隣人との相互作用認識をモデル化するために構築される。
自己教師型学習目標を持つ逐次潜時変圧器(SLT)を用いて、将来の予測情報を潜時シーン表現に蒸留する。
論文 参考訳(メタデータ) (2022-08-24T08:05:18Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。