論文の概要: Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning
- arxiv url: http://arxiv.org/abs/2411.07760v1
- Date: Tue, 12 Nov 2024 12:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:51.928471
- Title: Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning
- Title(参考訳): QPHILによるナビゲーション:階層的暗黙Q-Learningのための量子プランナ
- Authors: Alexi Canesse, Mathieu Petitbois, Ludovic Denoyer, Sylvain Lamprier, Rémy Portelas,
- Abstract要約: 空間の学習量化器を利用する階層型トランスフォーマーに基づく新しい手法を提案する。
この量子化により、より単純なゾーン条件の低レベルポリシーのトレーニングが可能になり、計画が簡単になる。
提案手法は,複雑な長距離ナビゲーション環境における最先端の成果を実現する。
- 参考スコア(独自算出の注目度): 17.760679318994384
- License:
- Abstract: Offline Reinforcement Learning (RL) has emerged as a powerful alternative to imitation learning for behavior modeling in various domains, particularly in complex navigation tasks. An existing challenge with Offline RL is the signal-to-noise ratio, i.e. how to mitigate incorrect policy updates due to errors in value estimates. Towards this, multiple works have demonstrated the advantage of hierarchical offline RL methods, which decouples high-level path planning from low-level path following. In this work, we present a novel hierarchical transformer-based approach leveraging a learned quantizer of the space. This quantization enables the training of a simpler zone-conditioned low-level policy and simplifies planning, which is reduced to discrete autoregressive prediction. Among other benefits, zone-level reasoning in planning enables explicit trajectory stitching rather than implicit stitching based on noisy value function estimates. By combining this transformer-based planner with recent advancements in offline RL, our proposed approach achieves state-of-the-art results in complex long-distance navigation environments.
- Abstract(参考訳): オフライン強化学習(RL)は、特に複雑なナビゲーションタスクにおいて、様々な領域における行動モデリングのための模倣学習の強力な代替手段として登場した。
Offline RLの既存の課題は、信号対雑音比、すなわち、値推定のエラーによる誤ったポリシー更新を緩和する方法である。
これに向けて、複数の研究が階層的なオフラインRL手法の利点を示しており、これは低レベルパスの追従から高レベルパス計画を分離するものである。
本研究では,空間の量子化器を応用した階層型トランスフォーマーに基づく新しい手法を提案する。
この量子化により、より単純なゾーン条件の低レベルポリシーのトレーニングが可能になり、計画が簡単になり、離散的な自己回帰予測に還元される。
計画におけるゾーンレベルの推論は、ノイズ値関数の推定に基づく暗黙的な縫合よりも明確な軌道縫合を可能にする。
この変圧器をベースとしたプランナーと最近のオフラインRLの進歩を組み合わせることで,提案手法は複雑な長距離航法環境において最先端の航法を実現することができる。
関連論文リスト
- Reinforced Imitative Trajectory Planning for Urban Automated Driving [3.2436298824947434]
本稿では,RLと模倣学習を統合して多段階計画を可能にする,RLに基づく新しい軌道計画手法を提案する。
都市シナリオにおけるRLに対する効果的な報酬信号を提供する変圧器に基づくベイズ報酬関数を開発した。
提案手法は,大規模な都市自動運転 nuPlan データセット上で検証された。
論文 参考訳(メタデータ) (2024-10-21T03:04:29Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。