論文の概要: TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.09536v1
- Date: Sat, 12 Oct 2024 13:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:55:04.894320
- Title: TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning
- Title(参考訳): TOP-ERL: 変圧器を用いたオフ・ポリシック・エピソード強化学習
- Authors: Ge Li, Dong Tian, Hongyi Zhou, Xinkai Jiang, Rudolf Lioutikov, Gerhard Neumann,
- Abstract要約: 本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。
TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
- 参考スコア(独自算出の注目度): 27.93845816476777
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces Transformer-based Off-Policy Episodic Reinforcement Learning (TOP-ERL), a novel algorithm that enables off-policy updates in the ERL framework. In ERL, policies predict entire action trajectories over multiple time steps instead of single actions at every time step. These trajectories are typically parameterized by trajectory generators such as Movement Primitives (MP), allowing for smooth and efficient exploration over long horizons while capturing high-level temporal correlations. However, ERL methods are often constrained to on-policy frameworks due to the difficulty of evaluating state-action values for entire action sequences, limiting their sample efficiency and preventing the use of more efficient off-policy architectures. TOP-ERL addresses this shortcoming by segmenting long action sequences and estimating the state-action values for each segment using a transformer-based critic architecture alongside an n-step return estimation. These contributions result in efficient and stable training that is reflected in the empirical results conducted on sophisticated robot learning environments. TOP-ERL significantly outperforms state-of-the-art RL methods. Thorough ablation studies additionally show the impact of key design choices on the model performance.
- Abstract(参考訳): 本研究は,ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムであるTransformer-based Off-Policy Episodic Reinforcement Learning (TOP-ERL)を紹介する。
ERLでは、ポリシーは時間ステップ毎に単一のアクションではなく、複数の時間ステップでアクショントラジェクトリ全体を予測します。
これらの軌道は通常、運動原始(MP)のような軌道生成器によってパラメータ化され、高水準の時間相関を捉えながら長い地平線を滑らかかつ効率的に探索することができる。
しかしながら、ERL法は、アクションシーケンス全体の状態-アクション値の評価が困難であり、サンプルの効率が制限され、より効率的なオフ・ポリティックアーキテクチャの使用が妨げられるため、オン・ポリティック・フレームワークに制約されることが多い。
TOP-ERLは、長いアクションシーケンスをセグメント化し、nステップの戻り値と並行してトランスフォーマーベースの批評家アーキテクチャを用いて各セグメントの状態-アクション値を推定することで、この欠点に対処する。
これらの貢献は、高度なロボット学習環境で行われた経験的な結果に反映される、効率的で安定したトレーニングをもたらす。
TOP-ERLは最先端のRL法を大幅に上回る。
徹底的なアブレーション研究は、重要な設計選択がモデル性能に与える影響も示している。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Open the Black Box: Step-based Policy Updates for Temporally-Correlated
Episodic Reinforcement Learning [26.344135827307113]
本稿では,新たなERLアルゴリズムであるTemporally-Correlated Episodic RL(TCE)を導入する。
TCEは最近のERL手法に匹敵する性能を保ちながら、最先端(SoTA)ステップベースのRLのようなデータ効率を維持している。
論文 参考訳(メタデータ) (2024-01-21T09:24:24Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。