論文の概要: Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming
- arxiv url: http://arxiv.org/abs/2410.06648v4
- Date: Tue, 22 Oct 2024 03:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:29:49.589951
- Title: Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming
- Title(参考訳): Q-WSL: 動的プログラミングによる軽量教師付き学習によるゴールコンディションRLの最適化
- Authors: Xing Lei, Xuetao Zhang, Zifeng Zhuang, Donglin Wang,
- Abstract要約: GoalConditioned Weighted Supervised Learning (GCWSL)と呼ばれる新しい高度なアルゴリズムのクラスが最近登場し、ゴール条件強化学習(RL)におけるスパース報酬による課題に対処している。
GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。
しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。
本稿では,GCの限界を克服する新しいフレームワークであるQ-learning Weighted Supervised Learning (Q-WSL)を提案する。
- 参考スコア(独自算出の注目度): 22.359171999254706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel class of advanced algorithms, termed Goal-Conditioned Weighted Supervised Learning (GCWSL), has recently emerged to tackle the challenges posed by sparse rewards in goal-conditioned reinforcement learning (RL). GCWSL consistently delivers strong performance across a diverse set of goal-reaching tasks due to its simplicity, effectiveness, and stability. However, GCWSL methods lack a crucial capability known as trajectory stitching, which is essential for learning optimal policies when faced with unseen skills during testing. This limitation becomes particularly pronounced when the replay buffer is predominantly filled with sub-optimal trajectories. In contrast, traditional TD-based RL methods, such as Q-learning, which utilize Dynamic Programming, do not face this issue but often experience instability due to the inherent difficulties in value function approximation. In this paper, we propose Q-learning Weighted Supervised Learning (Q-WSL), a novel framework designed to overcome the limitations of GCWSL by incorporating the strengths of Dynamic Programming found in Q-learning. Q-WSL leverages Dynamic Programming results to output the optimal action of (state, goal) pairs across different trajectories within the replay buffer. This approach synergizes the strengths of both Q-learning and GCWSL, effectively mitigating their respective weaknesses and enhancing overall performance. Empirical evaluations on challenging goal-reaching tasks demonstrate that Q-WSL surpasses other goal-conditioned approaches in terms of both performance and sample efficiency. Additionally, Q-WSL exhibits notable robustness in environments characterized by binary reward structures and environmental stochasticity.
- Abstract(参考訳): ゴールコンディションド・ウェイトド・スーパーバイザード・ラーニング(GCWSL)と呼ばれる新しいアルゴリズムのクラスが最近登場し、ゴール条件強化ラーニング(RL)におけるスパース報酬による課題に対処している。
GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。
しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。
この制限は、リプレイバッファが主に準最適軌道で満たされているときに特に顕著になる。
対照的に、動的プログラミングを利用するQ-learningのような伝統的なTDベースのRL手法では、この問題に直面することはないが、値関数近似の固有の困難のため、しばしば不安定を経験する。
本稿では,Q-learning Weighted Supervised Learning (Q-WSL)を提案する。これは,Q-learningに見られる動的プログラミングの強みを取り入れることで,GCWSLの限界を克服する新しいフレームワークである。
Q-WSLは動的プログラミングの結果を活用して、リプレイバッファ内の異なるトラジェクトリ間の(状態、ゴール)ペアの最適なアクションを出力します。
このアプローチは、Q-learningとGCWSLの長所を相乗化して、それぞれの弱点を効果的に軽減し、全体的なパフォーマンスを向上させる。
Q-WSL は他の目標条件のアプローチを性能とサンプル効率の両面で上回っていることを示す。
さらに、Q-WSLは二元報酬構造と環境確率性によって特徴づけられる環境において顕著な堅牢性を示す。
関連論文リスト
- Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-Objective Reinforcement Learning-based Approach for Pressurized Water Reactor Optimization [0.0]
PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
論文 参考訳(メタデータ) (2023-12-15T20:41:09Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL [49.26825108780872]
Goal-Conditioned Supervised Learning (GCSL)は、自己生成体験を反復的に再現して、新たな学習フレームワークを提供する。
我々はGCSLを新しいオフラインゴール条件付きRLアルゴリズムとして拡張する。
WGCSLはGCSLと既存の最先端のオフラインメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2022-02-09T14:17:05Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。