Fugu-MT 論文翻訳(概要): Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

論文の概要: Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.03406v2
Date: Sat, 28 Oct 2023 19:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 20:48:03.535898
Title: Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための目標条件付き予測符号化
Authors: Zilai Zeng, Ce Zhang, Shijie Wang, Chen Sun
Abstract要約: 本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
参考スコア（独自算出の注目度）: 24.300131097275298
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has demonstrated the effectiveness of formulating decision making as supervised learning on offline-collected trajectories. Powerful sequence models, such as GPT or BERT, are often employed to encode the trajectories. However, the benefits of performing sequence modeling on trajectory data remain unclear. In this work, we investigate whether sequence modeling has the ability to condense trajectories into useful representations that enhance policy learning. We adopt a two-stage framework that first leverages sequence models to encode trajectory-level representations, and then learns a goal-conditioned policy employing the encoded representations as its input. This formulation allows us to consider many existing supervised offline RL methods as specific instances of our framework. Within this framework, we introduce Goal-Conditioned Predictive Coding (GCPC), a sequence modeling objective that yields powerful trajectory representations and leads to performant policies. Through extensive empirical evaluations on AntMaze, FrankaKitchen and Locomotion environments, we observe that sequence modeling can have a significant impact on challenging decision making tasks. Furthermore, we demonstrate that GCPC learns a goal-conditioned latent representation encoding the future trajectory, which enables competitive performance on all three benchmarks.
Abstract（参考訳）: 近年,オフライン学習における教師付き学習としての意思決定の有効性が実証されている。 GPTやBERTのような強力なシーケンスモデルは、しばしば軌道を符号化するために使用される。しかし、軌道データ上でシーケンスモデリングを行うことの利点はいまだ不明である。そこで本研究では,シーケンス・モデリングがトラジェクトリを,ポリシー学習を促進する有用な表現に凝縮できるかどうかを検討する。まず、軌道レベルの表現をエンコードするためにシーケンスモデルを利用し、次にエンコードされた表現を入力として、ゴール条件付きポリシーを学習する2段階のフレームワークを採用する。この定式化により、既存の教師付きオフラインRLメソッドをフレームワークの特定のインスタンスとして考えることができる。このフレームワーク内では、強力な軌道表現を導き、実行ポリシーをもたらすシーケンスモデリングの目的である Goal-Conditioned Predictive Coding (GCPC) を導入する。 AntMaze、FrankaKitchen、Locomotion環境に対する広範な実証評価を通じて、シーケンスモデリングが意思決定タスクに重大な影響を与えることを観察した。さらに、GCPCは将来の軌道を符号化する目標条件付き潜在表現を学習し、3つのベンチマークの競合性能を実現する。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
AdaCred: Adaptive Causal Decision Transformers with Feature Crediting [11.54181863246064]
AdaCredは、短時間のアクション・リワード状態列から構築された因果グラフとして軌跡を表す新しいアプローチである。実験により,AdaCredをベースとしたポリシでは,より短い軌道列が必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
論文参考訳（メタデータ） (2024-12-19T22:22:37Z)
Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文参考訳（メタデータ） (2024-10-30T08:41:13Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文参考訳（メタデータ） (2024-02-11T15:23:13Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文参考訳（メタデータ） (2023-10-31T19:16:07Z)
Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。 D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文参考訳（メタデータ） (2023-08-31T00:47:58Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。 VLBM は既存の OPE 手法よりも高い性能を示す。
論文参考訳（メタデータ） (2023-01-28T02:20:03Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。