Fugu-MT 論文翻訳(概要): Critic-Guided Decision Transformer for Offline Reinforcement Learning

論文の概要: Critic-Guided Decision Transformer for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2312.13716v1
Date: Thu, 21 Dec 2023 10:29:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 15:15:57.587105
Title: Critic-Guided Decision Transformer for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための批判誘導決定変換器
Authors: Yuanfu Wang, Chao Yang, Ying Wen, Yu Liu, Yu Qiao
Abstract要約: CGDT(Critical-Guided Decision Transformer) 決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 28.211835303617118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in offline reinforcement learning (RL) have underscored the capabilities of Return-Conditioned Supervised Learning (RCSL), a paradigm that learns the action distribution based on target returns for each state in a supervised manner. However, prevailing RCSL methods largely focus on deterministic trajectory modeling, disregarding stochastic state transitions and the diversity of future trajectory distributions. A fundamental challenge arises from the inconsistency between the sampled returns within individual trajectories and the expected returns across multiple trajectories. Fortunately, value-based methods offer a solution by leveraging a value function to approximate the expected returns, thereby addressing the inconsistency effectively. Building upon these insights, we propose a novel approach, termed the Critic-Guided Decision Transformer (CGDT), which combines the predictability of long-term returns from value-based methods with the trajectory modeling capability of the Decision Transformer. By incorporating a learned value function, known as the critic, CGDT ensures a direct alignment between the specified target returns and the expected returns of actions. This integration bridges the gap between the deterministic nature of RCSL and the probabilistic characteristics of value-based methods. Empirical evaluations on stochastic environments and D4RL benchmark datasets demonstrate the superiority of CGDT over traditional RCSL methods. These results highlight the potential of CGDT to advance the state of the art in offline RL and extend the applicability of RCSL to a wide range of RL tasks.
Abstract（参考訳）: オフライン強化学習(RL)の最近の進歩は、各状態に対するターゲットリターンに基づく行動分布学習パラダイムであるReturn-Conditioned Supervised Learning(RCSL)の能力を、教師付き方式で強調している。しかし、RCSL法は主に決定論的軌跡モデリング、確率的状態遷移の無視、将来の軌跡分布の多様性に重点を置いている。基本的な課題は、個々の軌跡内のサンプルリターンと、複数の軌跡にわたる期待リターンの不整合から生じる。幸運なことに、バリューベースのメソッドは期待されるリターンを近似するために値関数を活用することでソリューションを提供する。そこで我々は,これらの知見に基づいて,バリューベース手法からの長期帰納の予測可能性と決定トランスの軌道モデリング能力を組み合わせた,評論家誘導決定トランスフォーマ(cgdt)と呼ばれる新しい手法を提案する。批評家として知られる学習値関数を組み込むことで、CGDTは指定されたターゲットリターンと期待されるアクションのリターンとの直接的なアライメントを保証する。この積分は、RCSLの決定論的性質と値に基づく手法の確率的特性のギャップを埋める。確率環境とD4RLベンチマークデータセットの実証評価は、従来のRCSL法よりもCGDTの方が優れていることを示す。これらの結果は、CGDTがオフラインRLにおけるアートの状態を前進させ、RCSLの適用性を広範囲なRLタスクにまで拡張する可能性を強調している。

関連論文リスト

How to Provably Improve Return Conditioned Supervised Learning? [26.915055027485465]
本稿では、Reinforced RCSLと呼ばれる原理的でシンプルなフレームワークを提案する。私たちのフレームワークのキーとなる革新は、分配の最適リターンという概念の導入です。理論解析により,Reinforced RCSL は標準RCSL のアプローチより一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-06-10T05:37:51Z)
Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文参考訳（メタデータ） (2024-10-30T20:46:26Z)
Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。 Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文参考訳（メタデータ） (2024-09-12T14:10:22Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Non-ergodicity in reinforcement learning: robustness via ergodicity transformations [8.44491527275706]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文参考訳（メタデータ） (2023-10-17T15:13:33Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Backward Imitation and Forward Reinforcement Learning via Bi-directional Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。 BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文参考訳（メタデータ） (2022-08-04T04:04:05Z)
When does return-conditioned supervised learning work for offline reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。 RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文参考訳（メタデータ） (2022-06-02T15:05:42Z)
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である将来予測付き価値分解(VDFP)を提案する。価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文参考訳（メタデータ） (2021-03-03T07:28:56Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。