論文の概要: Skill-Enhanced Reinforcement Learning Acceleration from Heterogeneous Demonstrations
- arxiv url: http://arxiv.org/abs/2412.06207v2
- Date: Sat, 30 Aug 2025 02:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.074181
- Title: Skill-Enhanced Reinforcement Learning Acceleration from Heterogeneous Demonstrations
- Title(参考訳): 不均一な説明から強化された強化学習の促進
- Authors: Hanping Zhang, Yuhong Guo,
- Abstract要約: 実証から学ぶ(LfD)は強化学習(RL)において確立された問題である
本稿では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA)と呼ばれる新しい2段階の手法を提案する。
- 参考スコア(独自算出の注目度): 23.628360655654507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) is a well-established problem in Reinforcement Learning (RL), which aims to facilitate rapid RL by leveraging expert demonstrations to pre-train the RL agent. However, the limited availability of expert demonstration data often hinders its ability to effectively aid downstream RL learning. To address this problem, we propose a novel two-stage method dubbed as Skill-enhanced Reinforcement Learning Acceleration (SeRLA). SeRLA introduces a skill-level adversarial Positive-Unlabeled (PU) learning model that extracts useful skill prior knowledge by learning from both expert demonstrations and general low-cost demonstrations in the offline prior learning stage. Building on this, it employs a skill-based soft actor-critic algorithm to leverage the acquired priors for efficient training of a skill policy network in the downstream online RL stage. In addition, we propose a simple skill-level data enhancement technique to mitigate data sparsity and further improve both skill prior learning and skill policy training. Experiments across multiple standard RL benchmarks demonstrate that SeRLA achieves state-of-the-art performance in accelerating reinforcement learning on downstream tasks, particularly in the early training phase.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,RLエージェントの事前訓練に専門家による実演を活用することで,RLの迅速な学習を促進することを目的としている。
しかし、専門家によるデモンストレーションデータの入手が限られているため、下流のRL学習を効果的に支援することができないことが多い。
そこで本研究では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA)と呼ばれる2段階の手法を提案する。
SeRLAは、専門家によるデモンストレーションと、オフラインの事前学習段階における一般的な低コストなデモの両方から学習することで、有用なスキル事前知識を抽出する、スキルレベルの正正の学習モデルを導入している。
これに基づいて、スキルベースのソフトアクター批判アルゴリズムを使用して、取得した事前知識を活用して、下流オンラインRLステージにおけるスキルポリシーネットワークの効率的なトレーニングを行う。
さらに,データスパシティを緩和し,スキル事前学習とスキルポリシートレーニングの両方を改善するための,シンプルなスキルレベルデータ拡張手法を提案する。
複数の標準RLベンチマークによる実験により、SeRLAは下流タスク、特に早期トレーニングフェーズにおける強化学習の加速において最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。
我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。
実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-10T17:48:03Z) - Accelerated Online Reinforcement Learning using Auxiliary Start State Distributions [50.44719434877687]
専門家によるデモンストレーションやシミュレータは任意の状態にリセットできる。
この補助分布の選択を安全の概念を用いて通知することは、学習を著しく加速することを発見した。
論文 参考訳(メタデータ) (2025-07-07T01:54:05Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。
自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。
本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - DELTA: Decoupling Long-Tailed Online Continual Learning [7.507868991415516]
Long-Tailed Online Continual Learning (LTOCL)は、クラス不均衡なデータストリームのシーケンシャルな到着から新しいタスクを学ぶことを目的としている。
DELTAは,学習表現の強化を目的とした非結合型学習手法である。
我々は,DELTAが既存のOCL手法を超越して,インクリメンタル学習の能力を向上させることを実証した。
論文 参考訳(メタデータ) (2024-04-06T02:33:04Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。