Fugu-MT 論文翻訳(概要): Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning

論文の概要: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.12030v1
Date: Fri, 24 Jun 2022 01:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-28 03:52:51.115399
Title: Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning
Title（参考訳）: スパース・リワードゴール・コンディション強化学習のためのファシック自己帰納的還元
Authors: Yunfei Li, Tian Gao, Jiaqi Yang, Huazhe Xu, Yi Wu
Abstract要約: スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。我々は、このアルゴリズムをPAIR(PhAsic Self-Imitative Reduction)と呼ぶ。PAIRは、スパースリワード目標条件のロボット制御問題において、非ファシックRLとファシックSLのベースラインの両方を著しく上回っている。
参考スコア（独自算出の注目度）: 41.340196224496125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It has been a recent trend to leverage the power of supervised learning (SL) towards more effective reinforcement learning (RL) methods. We propose a novel phasic approach by alternating online RL and offline SL for tackling sparse-reward goal-conditioned problems. In the online phase, we perform RL training and collect rollout data while in the offline phase, we perform SL on those successful trajectories from the dataset. To further improve sample efficiency, we adopt additional techniques in the online phase including task reduction to generate more feasible trajectories and a value-difference-based intrinsic reward to alleviate the sparse-reward issue. We call this overall algorithm, PhAsic self-Imitative Reduction (PAIR). PAIR substantially outperforms both non-phasic RL and phasic SL baselines on sparse-reward goal-conditioned robotic control problems, including a challenging stacking task. PAIR is the first RL method that learns to stack 6 cubes with only 0/1 success rewards from scratch.
Abstract（参考訳）: 近年, 教師あり学習(SL)の力を利用して, より効果的な強化学習(RL)手法が開発されている。スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。オンラインフェーズでは、RLトレーニングを行い、オフラインフェーズでロールアウトデータを収集し、データセットから成功した軌道上でSLを実行する。サンプル効率をさらに向上するため,より実現可能な軌道生成のためのタスク削減や,スパース・リワード問題を緩和するためのバリュー・ディファレンスに基づく本質的報酬など,オンラインフェーズでの追加技術を採用する。我々はこのアルゴリズムをPhAsic Self-Imitative Reduction (PAIR)と呼ぶ。 PAIRは、難解な積み重ねタスクを含むスパースリワード目標条件のロボット制御問題において、非ファシックなRLとファシックなSLベースラインの両方を大幅に上回っている。 PAIRは、ゼロから0/1の成功報酬しか持たない6つのキューブを積み重ねることを学ぶ最初のRLメソッドである。

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。 LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:55:43Z)
Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文参考訳（メタデータ） (2025-05-24T07:28:29Z)
Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [8.583014846046886]
強化学習(RL)における大きな課題は、スパース報酬から最適な政策を学ぶことの難しさである。我々は,オフラインデータから知識を抽出する目的をメタ学習するGILD(Generalized Imitation Learning from Demonstration)を開発した。課題である4つのMuJoCoタスクにおいて、GILDで拡張された3つのRLアルゴリズムが、最先端の手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-13T14:11:12Z)
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)の新しいアプローチであるオフライン強化学習(Offline-LD)について紹介する。 Offline-LDは2つのCQLベースのQ-ラーニング手法をマスク可能なアクション空間に適用し、離散SACのための新しいエントロピーボーナス修正を導入し、前処理による報酬正規化を活用する。実験の結果,Offline-LDは生成されたインスタンスとベンチマークインスタンスの両方でオンラインRLを上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-16T15:18:10Z)
Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-06-20T03:02:49Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。 EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文参考訳（メタデータ） (2023-05-31T17:55:21Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文参考訳（メタデータ） (2021-12-31T18:10:02Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。