論文の概要: Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning
- arxiv url: http://arxiv.org/abs/2310.19308v1
- Date: Mon, 30 Oct 2023 07:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:23:46.942802
- Title: Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning
- Title(参考訳): ベルマン完全性がない:モデルに基づく回帰条件付き教師付き学習による軌道ステッチ
- Authors: Zhaoyi Zhou, Chuning Zhu, Runlong Zhou, Qiwen Cui, Abhishek Gupta,
Simon Shaolei Du
- Abstract要約: オフライン動的プログラミング(DP)技術は、シーケンシャルな意思決定問題を解決する上で重要な手法であることが証明されている。
関数近似の存在下では、そのようなアルゴリズムは収束することが保証されない。
本研究では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習手法が,これらの課題を回避できることを示す。
- 参考スコア(独自算出の注目度): 22.287106840756483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy dynamic programming (DP) techniques such as $Q$-learning have
proven to be an important technique for solving sequential decision-making
problems. However, in the presence of function approximation such algorithms
are not guaranteed to converge, often diverging due to the absence of
Bellman-completeness in the function classes considered, a crucial condition
for the success of DP-based methods. In this paper, we show how off-policy
learning techniques based on return-conditioned supervised learning (RCSL) are
able to circumvent these challenges of Bellman completeness, converging under
significantly more relaxed assumptions inherited from supervised learning. We
prove there exists a natural environment in which if one uses two-layer
multilayer perceptron as the function approximator, the layer width needs to
grow linearly with the state space size to satisfy Bellman-completeness while a
constant layer width is enough for RCSL. These findings take a step towards
explaining the superior empirical performance of RCSL methods compared to
DP-based methods in environments with near-optimal datasets. Furthermore, in
order to learn from sub-optimal datasets, we propose a simple framework called
MBRCSL, granting RCSL methods the ability of dynamic programming to stitch
together segments from distinct trajectories. MBRCSL leverages learned dynamics
models and forward sampling to accomplish trajectory stitching while avoiding
the need for Bellman completeness that plagues all dynamic programming
algorithms. We propose both theoretical analysis and experimental evaluation to
back these claims, outperforming state-of-the-art model-free and model-based
offline RL algorithms across several simulated robotics problems.
- Abstract(参考訳): q$-learningのようなオフポリシー動的プログラミング(dp)技術は、シーケンシャルな意思決定問題を解決する重要な技術であることが証明されている。
しかし、関数近似の存在下では、そのようなアルゴリズムは収束することが保証されておらず、しばしば、考慮された関数クラスにおいてベルマン完全性が欠如しているため、DPベースの手法の成功にとって重要な条件である。
本稿では,回帰条件付き教師付き学習(return-conditioned supervised learning,rcsl)に基づくオフポリシー学習手法がベルマン完全性という課題を回避できることを示す。
関数近似器として2層多層パーセプトロンを用いる場合, 一定の層幅がrcslに十分である一方で, ベルマン完全性を満たすために, 状態空間サイズと線形に層幅を成長させる必要がある。
これらの結果は, ほぼ最適データセットを用いた環境におけるDP法と比較して, RCSL法の優れた経験的性能を説明するための一歩となる。
さらに、最適部分データセットから学習するために、RCSLメソッドに異なる軌道からセグメントを縫合する動的プログラミング機能を与えるMBRCSLという単純なフレームワークを提案する。
MBRCSLは、学習された動的モデルと前方サンプリングを利用して、全ての動的プログラミングアルゴリズムを悩ませるベルマン完全性の必要性を回避しつつ、軌道縫合を達成する。
これらの主張を裏付ける理論解析と実験評価の両方を提案し、いくつかのシミュレーションロボット問題に対して最先端のモデルフリーおよびモデルベースオフラインrlアルゴリズムを上回っている。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Causal prompting model-based offline reinforcement learning [16.95292725275873]
モデルベースのオフラインRLでは、エージェントは追加または非倫理的な探索を必要とせずに、事前にコンパイルされたデータセットを完全に活用することができる。
モデルベースのオフラインRLをオンラインシステムに適用することは、高度に最適化された(ノイズが満ちた)、オンラインシステムによって生成されたデータセットの多様な性質による課題を示す。
本稿では,高度に最適化されたリソース制約のあるオンラインシナリオを対象としたCausal Prompting Reinforcement Learningフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-03T07:28:57Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - A Unifying Multi-sampling-ratio CS-MRI Framework With Two-grid-cycle
Correction and Geometric Prior Distillation [7.643154460109723]
本稿では,モデルベースと深層学習に基づく手法の利点を融合して,深層展開型マルチサンプリング比CS-MRIフレームワークを提案する。
マルチグリッドアルゴリズムにインスパイアされ、まずCS-MRIに基づく最適化アルゴリズムを補正蒸留方式に組み込む。
各段の圧縮サンプリング比から適応的なステップ長と雑音レベルを学習するために条件モジュールを用いる。
論文 参考訳(メタデータ) (2022-05-14T13:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。