論文の概要: Rethinking Decision Transformer via Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.00267v1
- Date: Wed, 1 Nov 2023 03:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:54:35.339001
- Title: Rethinking Decision Transformer via Hierarchical Reinforcement Learning
- Title(参考訳): 階層的強化学習による決定変換器の再考
- Authors: Yi Ma, Chenjun Xiao, Hebin Liang, Jianye Hao
- Abstract要約: 決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
- 参考スコア(独自算出の注目度): 54.3596066989024
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decision Transformer (DT) is an innovative algorithm leveraging recent
advances of the transformer architecture in reinforcement learning (RL).
However, a notable limitation of DT is its reliance on recalling trajectories
from datasets, losing the capability to seamlessly stitch sub-optimal
trajectories together. In this work we introduce a general sequence modeling
framework for studying sequential decision making through the lens of
Hierarchical RL. At the time of making decisions, a high-level policy first
proposes an ideal prompt for the current state, a low-level policy subsequently
generates an action conditioned on the given prompt. We show DT emerges as a
special case of this framework with certain choices of high-level and low-level
policies, and discuss the potential failure of these choices. Inspired by these
observations, we study how to jointly optimize the high-level and low-level
policies to enable the stitching ability, which further leads to the
development of new offline RL algorithms. Our empirical results clearly show
that the proposed algorithms significantly surpass DT on several control and
navigation benchmarks. We hope our contributions can inspire the integration of
transformer architectures within the field of RL.
- Abstract(参考訳): Decision Transformer (DT) は、強化学習(RL)におけるトランスフォーマーアーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
しかし、DTの顕著な制限は、データセットからのトラジェクトリのリコールに依存しており、サブ最適トラジェクトリをシームレスに縫合する能力を失うことである。
本稿では,階層型RLのレンズを用いた逐次意思決定のための汎用シーケンスモデリングフレームワークを提案する。
意思決定の際には、まず高レベルポリシーが現在の状態に対する理想的なプロンプトを提案し、その後、低レベルポリシーが与えられたプロンプトに条件付けられたアクションを生成する。
我々は、dtが高水準および低レベルポリシーの特定の選択を伴うこのフレームワークの特別なケースとして出現することを示し、これらの選択の潜在的な失敗について議論する。
これらの観察に触発されて,スタイリング能力を実現するために,ハイレベルと低レベルのポリシを共同で最適化する方法について検討し,新たなオフラインrlアルゴリズムの開発に繋がる。
実験の結果,提案アルゴリズムは複数の制御およびナビゲーションベンチマークにおいてDTを大幅に上回っていることが明らかとなった。
私たちの貢献がrlの分野におけるトランスフォーマーアーキテクチャの統合を刺激できることを願っています。
関連論文リスト
- Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文 参考訳(メタデータ) (2024-10-30T20:46:26Z) - Predictive Coding for Decision Transformer [21.28952990360392]
決定変換器(DT)アーキテクチャは、様々な領域で約束されている。
最初の成功にもかかわらず、DTはゴール条件付きRLのいくつかの挑戦的なデータセットで性能が劣っている。
本稿では、一般化された将来の条件付けを活用してDT手法を強化するPCDT(Predictive Coding for Decision Transformer)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T13:17:34Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。