論文の概要: Goal-Conditioned Predictive Coding as an Implicit Planner for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.03406v1
- Date: Fri, 7 Jul 2023 06:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:19:09.196933
- Title: Goal-Conditioned Predictive Coding as an Implicit Planner for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習における命令型予測符号化
- Authors: Zilai Zeng, Ce Zhang, Shijie Wang, Chen Sun
- Abstract要約: シーケンスモデリングは、軌道をポリシー学習に寄与する有用な表現に凝縮する能力を持っているかを検討する。
このフレームワーク内では、強力な軌道表現を持ち、パフォーマンスポリシーをもたらすアプローチである、Goal-Conditioned Predicitve Coding (GCPC)を導入します。
- 参考スコア(独自算出の注目度): 21.48342836495582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated the effectiveness of formulating decision making
as a supervised learning problem on offline-collected trajectories. However,
the benefits of performing sequence modeling on trajectory data is not yet
clear. In this work we investigate if sequence modeling has the capability to
condense trajectories into useful representations that can contribute to policy
learning. To achieve this, we adopt a two-stage framework that first summarizes
trajectories with sequence modeling techniques, and then employs these
representations to learn a policy along with a desired goal. This design allows
many existing supervised offline RL methods to be considered as specific
instances of our framework. Within this framework, we introduce
Goal-Conditioned Predicitve Coding (GCPC), an approach that brings powerful
trajectory representations and leads to performant policies. We conduct
extensive empirical evaluations on AntMaze, FrankaKitchen and Locomotion
environments, and observe that sequence modeling has a significant impact on
some decision making tasks. In addition, we demonstrate that GCPC learns a
goal-conditioned latent representation about the future, which serves as an
"implicit planner", and enables competitive performance on all three
benchmarks.
- Abstract(参考訳): 近年,オフライン学習における教師付き学習問題として意思決定を定式化することの有効性が実証されている。
しかし、軌道データ上でシーケンスモデリングを行うことの利点はまだ明らかでない。
本研究は, シーケンス・モデリングがトラジェクトリをポリシー学習に寄与する有用な表現に凝縮する能力を持っているかを検討する。
これを実現するために、まず軌道をシーケンスモデリング技術で要約した2段階のフレームワークを採用し、次にこれらの表現を用いて、望ましい目標とともにポリシーを学習する。
この設計により、既存の教師付きオフラインRLメソッドをフレームワークの特定のインスタンスとみなすことができます。
このフレームワーク内では、強力な軌道表現を持ち、パフォーマンスポリシーをもたらすアプローチである、Goal-Conditioned Predicitve Coding (GCPC)を導入します。
我々はantmaze,frankakitchenおよびlocomotion環境について広範な経験的評価を行い,シーケンスモデリングが意思決定タスクに大きな影響を与えることを観察した。
さらに,GCPCが将来について目標条件付き潜在表現を学習し,これらが「単純プランナー」として機能し,3つのベンチマークの競合性能を実現することを実証した。
関連論文リスト
- Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。
モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。
実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-10-30T08:41:13Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。