論文の概要: Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning
- arxiv url: http://arxiv.org/abs/2310.19308v2
- Date: Sat, 2 Dec 2023 11:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:35:22.007951
- Title: Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning
- Title(参考訳): ベルマン完全性がない:モデルに基づく回帰条件付き教師付き学習による軌道ステッチ
- Authors: Zhaoyi Zhou, Chuning Zhu, Runlong Zhou, Qiwen Cui, Abhishek Gupta,
Simon Shaolei Du
- Abstract要約: 本稿では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習技術が,ベルマン完全性の課題を回避することができることを示す。
本稿では,MBRCSL と呼ばれる単純なフレームワークを提案し,RCSL の手法により動的プログラミングにより,異なるトラジェクトリのセグメントを縫合することを可能にする。
- 参考スコア(独自算出の注目度): 22.287106840756483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy dynamic programming (DP) techniques such as $Q$-learning have
proven to be important in sequential decision-making problems. In the presence
of function approximation, however, these techniques often diverge due to the
absence of Bellman completeness in the function classes considered, a crucial
condition for the success of DP-based methods. In this paper, we show how
off-policy learning techniques based on return-conditioned supervised learning
(RCSL) are able to circumvent these challenges of Bellman completeness,
converging under significantly more relaxed assumptions inherited from
supervised learning. We prove there exists a natural environment in which if
one uses two-layer multilayer perceptron as the function approximator, the
layer width needs to grow linearly with the state space size to satisfy Bellman
completeness while a constant layer width is enough for RCSL. These findings
take a step towards explaining the superior empirical performance of RCSL
methods compared to DP-based methods in environments with near-optimal
datasets. Furthermore, in order to learn from sub-optimal datasets, we propose
a simple framework called MBRCSL, granting RCSL methods the ability of dynamic
programming to stitch together segments from distinct trajectories. MBRCSL
leverages learned dynamics models and forward sampling to accomplish trajectory
stitching while avoiding the need for Bellman completeness that plagues all
dynamic programming algorithms. We propose both theoretical analysis and
experimental evaluation to back these claims, outperforming state-of-the-art
model-free and model-based offline RL algorithms across several simulated
robotics problems.
- Abstract(参考訳): q$-learningのようなオフポリシー動的プログラミング(dp)技術は、逐次的な意思決定問題において重要であることが証明されている。
しかし、関数近似の存在下では、これらの手法は、考慮された関数クラスにおいてベルマン完全性が欠如しているため、しばしば分岐し、DPベースの手法の成功にとって重要な条件である。
本稿では,回帰条件付き教師付き学習(return-conditioned supervised learning,rcsl)に基づくオフポリシー学習手法がベルマン完全性という課題を回避できることを示す。
関数近似器として2層多層パーセプトロンを用いる場合, 一定の層幅がrcslに十分である一方で, ベルマン完全性を満たすために, 状態空間サイズと線形に層幅を成長させる必要がある。
これらの結果は, ほぼ最適データセットを用いた環境におけるDP法と比較して, RCSL法の優れた経験的性能を説明するための一歩となる。
さらに、最適部分データセットから学習するために、RCSLメソッドに異なる軌道からセグメントを縫合する動的プログラミング機能を与えるMBRCSLという単純なフレームワークを提案する。
MBRCSLは、学習された動的モデルと前方サンプリングを利用して、全ての動的プログラミングアルゴリズムを悩ませるベルマン完全性の必要性を回避しつつ、軌道縫合を達成する。
これらの主張を裏付ける理論解析と実験評価の両方を提案し、いくつかのシミュレーションロボット問題に対して最先端のモデルフリーおよびモデルベースオフラインrlアルゴリズムを上回っている。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Causal prompting model-based offline reinforcement learning [16.95292725275873]
モデルベースのオフラインRLでは、エージェントは追加または非倫理的な探索を必要とせずに、事前にコンパイルされたデータセットを完全に活用することができる。
モデルベースのオフラインRLをオンラインシステムに適用することは、高度に最適化された(ノイズが満ちた)、オンラインシステムによって生成されたデータセットの多様な性質による課題を示す。
本稿では,高度に最適化されたリソース制約のあるオンラインシナリオを対象としたCausal Prompting Reinforcement Learningフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-03T07:28:57Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - A Unifying Multi-sampling-ratio CS-MRI Framework With Two-grid-cycle
Correction and Geometric Prior Distillation [7.643154460109723]
本稿では,モデルベースと深層学習に基づく手法の利点を融合して,深層展開型マルチサンプリング比CS-MRIフレームワークを提案する。
マルチグリッドアルゴリズムにインスパイアされ、まずCS-MRIに基づく最適化アルゴリズムを補正蒸留方式に組み込む。
各段の圧縮サンプリング比から適応的なステップ長と雑音レベルを学習するために条件モジュールを用いる。
論文 参考訳(メタデータ) (2022-05-14T13:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。