論文の概要: How to Provably Improve Return Conditioned Supervised Learning?
- arxiv url: http://arxiv.org/abs/2506.08463v1
- Date: Tue, 10 Jun 2025 05:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.56908
- Title: How to Provably Improve Return Conditioned Supervised Learning?
- Title(参考訳): リターン条件付き教師付き学習を確実に改善する方法
- Authors: Zhishuai Liu, Yu Yang, Ruhan Wang, Pan Xu, Dongruo Zhou,
- Abstract要約: 本稿では、Reinforced RCSLと呼ばれる原理的でシンプルなフレームワークを提案する。
私たちのフレームワークのキーとなる革新は、分配の最適リターンという概念の導入です。
理論解析により,Reinforced RCSL は標準RCSL のアプローチより一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 26.915055027485465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sequential decision-making problems, Return-Conditioned Supervised Learning (RCSL) has gained increasing recognition for its simplicity and stability in modern decision-making tasks. Unlike traditional offline reinforcement learning (RL) algorithms, RCSL frames policy learning as a supervised learning problem by taking both the state and return as input. This approach eliminates the instability often associated with temporal difference (TD) learning in offline RL. However, RCSL has been criticized for lacking the stitching property, meaning its performance is inherently limited by the quality of the policy used to generate the offline dataset. To address this limitation, we propose a principled and simple framework called Reinforced RCSL. The key innovation of our framework is the introduction of a concept we call the in-distribution optimal return-to-go. This mechanism leverages our policy to identify the best achievable in-dataset future return based on the current state, avoiding the need for complex return augmentation techniques. Our theoretical analysis demonstrates that Reinforced RCSL can consistently outperform the standard RCSL approach. Empirical results further validate our claims, showing significant performance improvements across a range of benchmarks.
- Abstract(参考訳): 逐次的意思決定問題において、リターン・コンディションド・スーパーバイザード・ラーニング(RCSL)は、現代の意思決定タスクにおける単純さと安定性の認知度を高めている。
従来のオフライン強化学習(RL)アルゴリズムとは異なり、RCSLは状態と戻りを入力として取り込むことで、ポリシー学習を教師付き学習問題として捉えている。
このアプローチは、オフラインRLにおける時間差(TD)学習に伴う不安定性を排除します。
しかし、RCSLは縫合性に欠けるとして批判されているため、その性能は本質的にオフラインデータセットを生成するために使用されるポリシーの品質によって制限されている。
この制限に対処するために、Reinforced RCSLと呼ばれる原則的でシンプルなフレームワークを提案する。
私たちのフレームワークのキーとなる革新は、分配の最適リターンという概念の導入です。
このメカニズムは当社のポリシを活用して、現在の状態に基づいて、最も達成可能なデータベース内の将来のリターンを特定することで、複雑なリターン拡張技術の必要性を回避する。
理論解析により,Reinforced RCSL は標準RCSL のアプローチより一貫して優れていることが示された。
実証的な結果は、我々の主張をさらに検証し、様々なベンチマークで大幅なパフォーマンス向上を示した。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning [20.07425661382103]
Q$-Aided Conditional Supervised Learningは、RCSLの安定性と$Q$-functionの縫合能力を組み合わせる。
QCSは、トラジェクトリリターンに基づいたRCSLの損失関数に$Q$-aidを適応的に統合する。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。