論文の概要: Critic-Guided Decision Transformer for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.13716v1
- Date: Thu, 21 Dec 2023 10:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:15:57.587105
- Title: Critic-Guided Decision Transformer for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための批判誘導決定変換器
- Authors: Yuanfu Wang, Chao Yang, Ying Wen, Yu Liu, Yu Qiao
- Abstract要約: CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 28.211835303617118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in offline reinforcement learning (RL) have underscored
the capabilities of Return-Conditioned Supervised Learning (RCSL), a paradigm
that learns the action distribution based on target returns for each state in a
supervised manner. However, prevailing RCSL methods largely focus on
deterministic trajectory modeling, disregarding stochastic state transitions
and the diversity of future trajectory distributions. A fundamental challenge
arises from the inconsistency between the sampled returns within individual
trajectories and the expected returns across multiple trajectories.
Fortunately, value-based methods offer a solution by leveraging a value
function to approximate the expected returns, thereby addressing the
inconsistency effectively. Building upon these insights, we propose a novel
approach, termed the Critic-Guided Decision Transformer (CGDT), which combines
the predictability of long-term returns from value-based methods with the
trajectory modeling capability of the Decision Transformer. By incorporating a
learned value function, known as the critic, CGDT ensures a direct alignment
between the specified target returns and the expected returns of actions. This
integration bridges the gap between the deterministic nature of RCSL and the
probabilistic characteristics of value-based methods. Empirical evaluations on
stochastic environments and D4RL benchmark datasets demonstrate the superiority
of CGDT over traditional RCSL methods. These results highlight the potential of
CGDT to advance the state of the art in offline RL and extend the applicability
of RCSL to a wide range of RL tasks.
- Abstract(参考訳): オフライン強化学習(RL)の最近の進歩は、各状態に対するターゲットリターンに基づく行動分布学習パラダイムであるReturn-Conditioned Supervised Learning(RCSL)の能力を、教師付き方式で強調している。
しかし、RCSL法は主に決定論的軌跡モデリング、確率的状態遷移の無視、将来の軌跡分布の多様性に重点を置いている。
基本的な課題は、個々の軌跡内のサンプルリターンと、複数の軌跡にわたる期待リターンの不整合から生じる。
幸運なことに、バリューベースのメソッドは期待されるリターンを近似するために値関数を活用することでソリューションを提供する。
そこで我々は,これらの知見に基づいて,バリューベース手法からの長期帰納の予測可能性と決定トランスの軌道モデリング能力を組み合わせた,評論家誘導決定トランスフォーマ(cgdt)と呼ばれる新しい手法を提案する。
批評家として知られる学習値関数を組み込むことで、CGDTは指定されたターゲットリターンと期待されるアクションのリターンとの直接的なアライメントを保証する。
この積分は、RCSLの決定論的性質と値に基づく手法の確率的特性のギャップを埋める。
確率環境とD4RLベンチマークデータセットの実証評価は、従来のRCSL法よりもCGDTの方が優れていることを示す。
これらの結果は、CGDTがオフラインRLにおけるアートの状態を前進させ、RCSLの適用性を広範囲なRLタスクにまで拡張する可能性を強調している。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Value-Aided Conditional Supervised Learning for Offline RL [21.929683225837078]
Value-Aided Conditional Supervised Learning (VCS) は、RCSLの安定性と値ベース手法の縫合能力を相乗化する手法である。
ニューラル・タンジェント・カーネル解析に基づいて、VCSはトラジェクトリ・リターンに応じてRCSLの損失関数に値補助を動的に注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回っているだけでなく、最も高い軌道のリターンを継続的に達成している、または、しばしば上回っていることを明らかにしている。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Non-ergodicity in reinforcement learning: robustness via ergodicity transformations [8.44491527275706]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。