論文の概要: Uncertainty-Aware Decision Transformer for Stochastic Driving Environments
- arxiv url: http://arxiv.org/abs/2309.16397v3
- Date: Mon, 07 Oct 2024 12:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:03.905690
- Title: Uncertainty-Aware Decision Transformer for Stochastic Driving Environments
- Title(参考訳): 確率駆動環境における不確実性を考慮した決定変換器
- Authors: Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao,
- Abstract要約: 環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。
UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。
我々は、意思決定変換器のグローバルなリターンを、実際の結果から学ぶ環境の影響を受けない、切り捨てられたリターンに置き換える。
- 参考スコア(独自算出の注目度): 34.78461208843929
- License:
- Abstract: Offline Reinforcement Learning (RL) enables policy learning without active interactions, making it especially appealing for self-driving tasks. Recent successes of Transformers inspire casting offline RL as sequence modeling, which, however, fails in stochastic environments with incorrect assumptions that identical actions can consistently achieve the same goal. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer (UNREST) for planning in stochastic driving environments without introducing additional transition or complex generative models. Specifically, UNREST estimates uncertainties by conditional mutual information between transitions and returns. Discovering 'uncertainty accumulation' and 'temporal locality' properties of driving environments, we replace the global returns in decision transformers with truncated returns less affected by environments to learn from actual outcomes of actions rather than environment transitions. We also dynamically evaluate uncertainty at inference for cautious planning. Extensive experiments demonstrate UNREST's superior performance in various driving scenarios and the power of our uncertainty estimation strategy.
- Abstract(参考訳): オフライン強化学習(RL)は、アクティブな相互作用なしにポリシー学習を可能にし、特に自動運転タスクにアピールする。
トランスフォーマーの最近の成功は、オフラインRLをシーケンスモデリングとして使用することを促すが、同一のアクションが常に同じゴールを達成するという誤った仮定で確率的環境で失敗する。
本稿では,確率駆動環境において,新たな遷移モデルや複雑な生成モデルを導入することなく計画するためのUNREST(Uncertainty-aware deciSion Transformer)を提案する。
具体的には、UNRESTはトランジッションとリターンの間の条件付き相互情報によって不確実性を推定する。
運転環境の「不確実性蓄積」と「時間的局所性」特性を明らかにすることで、環境遷移よりも実際の行動結果から学習するために、意思決定変換器のグローバルリターンを、環境の影響を受けない状態に置き換える。
また,慎重な計画を立てる上での不確実性を動的に評価する。
大規模な実験では、さまざまな駆動シナリオにおけるUNRESTの優れたパフォーマンスと、不確実性評価戦略のパワーが示されています。
関連論文リスト
- Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors [2.773055342671194]
本研究では,自然主義的人間運転先行と強化学習技術を用いた自然逆シナリオ生成ソリューションを提案する。
本研究は,本モデルにより,自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオを生成できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:58:56Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Augmenting Reinforcement Learning with Transformer-based Scene
Representation Learning for Decision-making of Autonomous Driving [27.84595432822612]
本研究では,強化学習による意思決定能力の向上を目的としたScene-Rep Transformerを提案する。
マルチステージトランスフォーマー(MST)エンコーダは、エゴ車とその隣人との相互作用認識をモデル化するために構築される。
自己教師型学習目標を持つ逐次潜時変圧器(SLT)を用いて、将来の予測情報を潜時シーン表現に蒸留する。
論文 参考訳(メタデータ) (2022-08-24T08:05:18Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。