Fugu-MT 論文翻訳(概要): Skill-Critic: Refining Learned Skills for Reinforcement Learning

論文の概要: Skill-Critic: Refining Learned Skills for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.08388v2
Date: Fri, 16 Jun 2023 02:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 10:49:25.254575
Title: Skill-Critic: Refining Learned Skills for Reinforcement Learning
Title（参考訳）: Skill-Critic: 強化学習のための学習スキルの精製
Authors: Ce Hao, Catherine Weaver, Chen Tang, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan
Abstract要約: 我々は,高レベルのスキル選択とともに,低レベルのポリシーを微調整することを提案する。我々のスキルクリティカルアルゴリズムは、低レベルと高レベルの両方を最適化する。我々は,Gran Turismo Sportにおける新しいスパース報酬自律レースタスクを含む,複数のスパース環境でのアプローチを検証する。
参考スコア（独自算出の注目度）: 30.50880687770931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical reinforcement learning (RL) can accelerate long-horizon decision-making by temporally abstracting a policy into multiple levels. Promising results in sparse reward environments have been seen with skills, i.e. sequences of primitive actions. Typically, a skill latent space and policy are discovered from offline data, but the resulting low-level policy can be unreliable due to low-coverage demonstrations or distribution shifts. As a solution, we propose fine-tuning the low-level policy in conjunction with high-level skill selection. Our Skill-Critic algorithm optimizes both the low and high-level policies; these policies are also initialized and regularized by the latent space learned from offline demonstrations to guide the joint policy optimization. We validate our approach in multiple sparse RL environments, including a new sparse reward autonomous racing task in Gran Turismo Sport. The experiments show that Skill-Critic's low-level policy fine-tuning and demonstration-guided regularization are essential for optimal performance. Images and videos are available at https://sites.google.com/view/skill-critic. We plan to open source the code with the final version.
Abstract（参考訳）: 階層的強化学習(RL)は、政策を時間的に複数のレベルに抽象化することで、長期的な意思決定を促進することができる。スパース報酬環境における評価結果は、スキル、すなわちプリミティブアクションのシーケンスで見られる。通常、スキル潜在空間とポリシはオフラインデータから検出されるが、結果として生じる低レベルのポリシは、低カバレッジのデモンストレーションや分散シフトのために信頼性が低い可能性がある。そこで,我々は,ハイレベルなスキル選択と連動して,低レベルのポリシーを微調整する手法を提案する。これらのポリシーは、オフラインデモから学んだ潜在空間によって初期化され、規則化され、統合ポリシー最適化のガイドとなる。我々は,Gran Turismo Sportにおける新しいスパース報酬自律レースタスクを含む,複数のスパースRL環境でのアプローチを検証する。実験の結果,Skill-Criticの低レベル政策の微調整と実証誘導正規化が最適性能に不可欠であることが示唆された。画像とビデオはhttps://sites.google.com/view/skill-critic.comで入手できる。最終バージョンでコードをオープンソース化する予定です。

関連論文リスト

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [15.902089688167871]
オフライン目標条件強化学習(GCRL)は、豊富なラベルなしデータセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。我々は,時間差学習プロセスに時間的抽象化を組み込んだ,OTAと呼ばれるオプション対応の時間的抽象価値学習を提案する。 OTAを用いて抽出した高レベルポリシーは,OGBenchの複雑なタスクに対して高い性能を示す。
論文参考訳（メタデータ） (2025-05-19T05:51:11Z)
Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文参考訳（メタデータ） (2024-12-29T03:34:53Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Residual Skill Policies: Learning an Adaptable Skill-based Action Space for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文参考訳（メタデータ） (2022-11-04T02:42:17Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2021-07-01T15:30:59Z)
Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。 SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文参考訳（メタデータ） (2021-06-10T06:29:59Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。