Fugu-MT 論文翻訳(概要): Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving

論文の概要: Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving

arxiv url: http://arxiv.org/abs/2208.12263v3
Date: Fri, 25 Aug 2023 05:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 11:16:35.407434
Title: Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving
Title（参考訳）: 変圧器を用いたシーン表現学習による強化学習による自律運転意思決定
Authors: Haochen Liu, Zhiyu Huang, Xiaoyu Mo, and Chen Lv
Abstract要約: 本研究では,強化学習による意思決定能力の向上を目的としたScene-Rep Transformerを提案する。マルチステージトランスフォーマー(MST)エンコーダは、エゴ車とその隣人との相互作用認識をモデル化するために構築される。自己教師型学習目標を持つ逐次潜時変圧器(SLT)を用いて、将来の予測情報を潜時シーン表現に蒸留する。
参考スコア（独自算出の注目度）: 27.84595432822612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decision-making for urban autonomous driving is challenging due to the stochastic nature of interactive traffic participants and the complexity of road structures. Although reinforcement learning (RL)-based decision-making scheme is promising to handle urban driving scenarios, it suffers from low sample efficiency and poor adaptability. In this paper, we propose Scene-Rep Transformer to improve the RL decision-making capabilities with better scene representation encoding and sequential predictive latent distillation. Specifically, a multi-stage Transformer (MST) encoder is constructed to model not only the interaction awareness between the ego vehicle and its neighbors but also intention awareness between the agents and their candidate routes. A sequential latent Transformer (SLT) with self-supervised learning objectives is employed to distill the future predictive information into the latent scene representation, in order to reduce the exploration space and speed up training. The final decision-making module based on soft actor-critic (SAC) takes as input the refined latent scene representation from the Scene-Rep Transformer and outputs driving actions. The framework is validated in five challenging simulated urban scenarios with dense traffic, and its performance is manifested quantitatively by the substantial improvements in data efficiency and performance in terms of success rate, safety, and efficiency. The qualitative results reveal that our framework is able to extract the intentions of neighbor agents to help make decisions and deliver more diversified driving behaviors.
Abstract（参考訳）: インタラクティブな交通参加者の確率的性質と道路構造の複雑さにより、都市自律運転の意思決定は困難である。強化学習(rl)に基づく意思決定手法は都市運転のシナリオをうまく扱うことができるが、サンプル効率の低下と適応性の低下に苦しむ。本稿では,シーン表現符号化と逐次予測潜在蒸留によりRL判定能力を向上させるScene-Rep Transformerを提案する。具体的には、マルチステージトランスフォーマー(MST)エンコーダを構築し、エゴ車とその隣人間の相互作用意識だけでなく、エージェントとその候補経路間の相互作用意識をモデル化する。自己教師型学習目標を持つシーケンシャル潜水変圧器(SLT)を用いて,将来の予測情報を潜水場表現に蒸留し,探索空間の低減とトレーニングの高速化を図る。ソフトアクター・クリティック(SAC)に基づく最終決定モジュールは、Scene-Rep Transformerから精細化された潜在シーン表現を入力として駆動動作を出力する。このフレームワークは、密集したトラフィックを伴う5つのシミュレート都市シナリオで検証され、その性能は、成功率、安全性、効率の観点から、データ効率とパフォーマンスの大幅な改善によって定量的に示される。定性的な結果は、我々のフレームワークが近隣のエージェントの意図を抽出し、意思決定を助け、より多様な運転行動を提供できることを示している。

関連論文リスト

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文参考訳（メタデータ） (2025-08-15T12:06:55Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文参考訳（メタデータ） (2025-05-26T06:40:11Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
GITSR: Graph Interaction Transformer-based Scene Representation for Multi Vehicle Collaborative Decision-making [9.910230703889956]
本研究では,交通状態の空間的相互作用の効率的な表現とモデル化に焦点を当てた。本研究では,グラフインタラクショントランスフォーマに基づくシーン表現のための効果的なフレームワークであるGITSRを提案する。
論文参考訳（メタデータ） (2024-11-03T15:27:26Z)
End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning [24.578178308010912]
これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。 Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
Parameterized Decision-making with Multi-modal Perception for Autonomous Driving [12.21578713219778]
AUTOと呼ばれる深層強化学習に基づくマルチモーダル認識を用いたパラメータ化意思決定フレームワークを提案する。ハイブリッド報酬関数は、安全、交通効率、乗客の快適性、および最適な行動を生成するためのフレームワークを導く影響を考慮に入れている。
論文参考訳（メタデータ） (2023-12-19T08:27:02Z)
Decision Making for Autonomous Driving in Interactive Merge Scenarios via Learning-based Prediction [39.48631437946568]
本稿では,他のドライバの動作から不確実性が生ずる移動トラフィックにマージする複雑なタスクに焦点を当てる。我々はこの問題を部分的に観測可能なマルコフ決定プロセス(POMDP)とみなし、モンテカルロ木探索でオンラインに解決する。 POMDPの解決策は、接近する車に道を譲る、前方の車から安全な距離を維持する、あるいは交通に合流するといった、高いレベルの運転操作を行う政策である。
論文参考訳（メタデータ） (2023-03-29T16:12:45Z)
Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文参考訳（メタデータ） (2023-03-12T16:23:27Z)
Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文参考訳（メタデータ） (2022-10-13T05:56:20Z)
Transferable and Adaptable Driving Behavior Prediction [34.606012573285554]
本研究では,運転行動に対して高品質で伝達可能で適応可能な予測を生成する階層型フレームワークであるHATNを提案する。我々は,交差点における実交通データの軌跡予測と,インターActionデータセットからのラウンドアバウンドのタスクにおいて,我々のアルゴリズムを実証する。
論文参考訳（メタデータ） (2022-02-10T16:46:24Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)
Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文参考訳（メタデータ） (2021-01-18T01:43:36Z)
Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文参考訳（メタデータ） (2020-07-23T14:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。