Fugu-MT 論文翻訳(概要): Uncertainty-Aware Decision Transformer for Stochastic Driving Environments

論文の概要: Uncertainty-Aware Decision Transformer for Stochastic Driving Environments

arxiv url: http://arxiv.org/abs/2309.16397v1
Date: Thu, 28 Sep 2023 12:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 14:40:04.210817
Title: Uncertainty-Aware Decision Transformer for Stochastic Driving Environments
Title（参考訳）: 確率的運転環境における不確実性認識決定変圧器
Authors: Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao
Abstract要約: 環境の運転計画のためのuncertainty-awaRESion Transformer(UNREST)を導入する。 UNRESTは、遷移と返却の間の条件付き相互情報によって不確実性を推定する。私たちは、様々な駆動シナリオにおけるUNRESTの優れたパフォーマンスと、不確実性推定戦略のパワーを示します。
参考スコア（独自算出の注目度）: 37.31853034449015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline Reinforcement Learning (RL) has emerged as a promising framework for learning policies without active interactions, making it especially appealing for autonomous driving tasks. Recent successes of Transformers inspire casting offline RL as sequence modeling, which performs well in long-horizon tasks. However, they are overly optimistic in stochastic environments with incorrect assumptions that the same goal can be consistently achieved by identical actions. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer (UNREST) for planning in stochastic driving environments without introducing additional transition or complex generative models. Specifically, UNREST estimates state uncertainties by the conditional mutual information between transitions and returns, and segments sequences accordingly. Discovering the `uncertainty accumulation' and `temporal locality' properties of driving environments, UNREST replaces the global returns in decision transformers with less uncertain truncated returns, to learn from true outcomes of agent actions rather than environment transitions. We also dynamically evaluate environmental uncertainty during inference for cautious planning. Extensive experimental results demonstrate UNREST's superior performance in various driving scenarios and the power of our uncertainty estimation strategy.
Abstract（参考訳）: オフライン強化学習(RL)は、アクティブな相互作用なしにポリシーを学ぶための有望なフレームワークとして現れ、特に自律運転タスクにアピールしている。トランスフォーマーの最近の成功は、オフラインRLをシーケンスモデリングとして刺激し、長い水平タスクでうまく機能する。しかし、同じ目標が同一の行動によって一貫して達成できるという誤った仮定を持つ確率的環境では、非常に楽観的である。本稿では,確率駆動環境において,新たな遷移モデルや複雑な生成モデルを導入することなく計画するためのUNREST(Uncertainty-aware deciSion Transformer)を提案する。具体的には、UNRESTは遷移と返却の間の条件付き相互情報によって状態の不確実性を推定し、それに従ってセグメントシーケンスを出力する。 UNRESTは、駆動環境の'不確実性蓄積'と'時間的局所性'の性質を発見し、環境遷移よりもエージェントアクションの真の結果から学ぶために、決定トランスフォーマーのグローバルリターンを、不確実な未解決のリターンに置き換える。また、慎重な計画を立てる際の環境不確実性を動的に評価する。広範囲な実験結果は、様々な運転シナリオにおけるunrestの優れた性能と、不確実性推定戦略のパワーを示している。

関連論文リスト

Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
RADE: Learning Risk-Adjustable Driving Environment via Multi-Agent Conditional Diffusion [17.46462636610847]
リスク・ドライビング・環境(RADE)は、統計的に現実的でリスク調整可能な交通シーンを生成するシミュレーション・フレームワークである。 RADEはデータから直接リスク条件の行動を学び、コントロール可能なリスクレベルと自然主義的なマルチエージェントインタラクションを保存する。 RADEを実世界のrounDデータセットで検証し、様々なリスクレベルにわたって統計的リアリズムを保存することを示した。
論文参考訳（メタデータ） (2025-05-06T04:41:20Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors [2.773055342671194]
本研究では,自然主義的人間運転先行と強化学習技術を用いた自然逆シナリオ生成ソリューションを提案する。本研究は,本モデルにより,自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオを生成できることを示す。
論文参考訳（メタデータ） (2024-08-06T13:58:56Z)
Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文参考訳（メタデータ） (2024-02-07T08:18:09Z)
Controllable Diverse Sampling for Diffusion Based Motion Behavior Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。 CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文参考訳（メタデータ） (2024-02-06T13:16:54Z)
Dealing with uncertainty: balancing exploration and exploitation in deep recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文参考訳（メタデータ） (2023-10-12T13:45:33Z)
Environment Transformer and Policy Optimization for Model-Based Offline Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文参考訳（メタデータ） (2023-03-07T11:26:09Z)
Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving [27.84595432822612]
本研究では,強化学習による意思決定能力の向上を目的としたScene-Rep Transformerを提案する。マルチステージトランスフォーマー(MST)エンコーダは、エゴ車とその隣人との相互作用認識をモデル化するために構築される。自己教師型学習目標を持つ逐次潜時変圧器(SLT)を用いて、将来の予測情報を潜時シーン表現に蒸留する。
論文参考訳（メタデータ） (2022-08-24T08:05:18Z)
Generalizing Decision Making for Automated Driving with an Invariant Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。本研究では,エゴ車の観点から不変環境表現を提案する。この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文参考訳（メタデータ） (2021-02-12T20:37:29Z)
Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文参考訳（メタデータ） (2020-08-15T01:40:59Z)
Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文参考訳（メタデータ） (2020-06-26T11:07:32Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。