論文の概要: Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.03406v2
- Date: Sat, 28 Oct 2023 19:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:48:03.535898
- Title: Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための目標条件付き予測符号化
- Authors: Zilai Zeng, Ce Zhang, Shijie Wang, Chen Sun
- Abstract要約: 本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。
本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
- 参考スコア(独自算出の注目度): 24.300131097275298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated the effectiveness of formulating decision making
as supervised learning on offline-collected trajectories. Powerful sequence
models, such as GPT or BERT, are often employed to encode the trajectories.
However, the benefits of performing sequence modeling on trajectory data remain
unclear. In this work, we investigate whether sequence modeling has the ability
to condense trajectories into useful representations that enhance policy
learning. We adopt a two-stage framework that first leverages sequence models
to encode trajectory-level representations, and then learns a goal-conditioned
policy employing the encoded representations as its input. This formulation
allows us to consider many existing supervised offline RL methods as specific
instances of our framework. Within this framework, we introduce
Goal-Conditioned Predictive Coding (GCPC), a sequence modeling objective that
yields powerful trajectory representations and leads to performant policies.
Through extensive empirical evaluations on AntMaze, FrankaKitchen and
Locomotion environments, we observe that sequence modeling can have a
significant impact on challenging decision making tasks. Furthermore, we
demonstrate that GCPC learns a goal-conditioned latent representation encoding
the future trajectory, which enables competitive performance on all three
benchmarks.
- Abstract(参考訳): 近年,オフライン学習における教師付き学習としての意思決定の有効性が実証されている。
GPTやBERTのような強力なシーケンスモデルは、しばしば軌道を符号化するために使用される。
しかし、軌道データ上でシーケンスモデリングを行うことの利点はいまだ不明である。
そこで本研究では,シーケンス・モデリングがトラジェクトリを,ポリシー学習を促進する有用な表現に凝縮できるかどうかを検討する。
まず、軌道レベルの表現をエンコードするためにシーケンスモデルを利用し、次にエンコードされた表現を入力として、ゴール条件付きポリシーを学習する2段階のフレームワークを採用する。
この定式化により、既存の教師付きオフラインRLメソッドをフレームワークの特定のインスタンスとして考えることができる。
このフレームワーク内では、強力な軌道表現を導き、実行ポリシーをもたらすシーケンスモデリングの目的である Goal-Conditioned Predictive Coding (GCPC) を導入する。
AntMaze、FrankaKitchen、Locomotion環境に対する広範な実証評価を通じて、シーケンスモデリングが意思決定タスクに重大な影響を与えることを観察した。
さらに、GCPCは将来の軌道を符号化する目標条件付き潜在表現を学習し、3つのベンチマークの競合性能を実現する。
関連論文リスト
- Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Expressive Modeling Is Insufficient for Offline RL: A Tractable
Inference Perspective [39.94270135913932]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,各種クエリの正確かつ効率的な応答能力であるトラクタビリティが,同様に重要な役割を担っていることを強調する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Control-Aware Representations for Model-based Reinforcement Learning [36.221391601609255]
現代の強化学習(RL)における大きな課題は、高次元の感覚観測から力学系の効率的な制御である。
学習制御可能な埋め込み(LCE)は、観測結果を低次元の潜在空間に埋め込むことによって、この問題に対処する有望なアプローチである。
この領域における2つの重要な疑問は、手前の制御問題に対処可能な表現の学習方法と、表現学習と制御のためのエンドツーエンドフレームワークの達成方法である。
論文 参考訳(メタデータ) (2020-06-24T01:00:32Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。