論文の概要: Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration
- arxiv url: http://arxiv.org/abs/2202.04628v1
- Date: Wed, 9 Feb 2022 18:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:08:43.054461
- Title: Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration
- Title(参考訳): オフラインデモからのガイダンスを用いたスパース報酬による強化学習
- Authors: Desik Rengarajan, Gargi Vaidya, Akshay Sarvesh, Dileep Kalathil,
Srinivas Shakkottai
- Abstract要約: 実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
- 参考スコア(独自算出の注目度): 9.017416068706579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in real-world reinforcement learning (RL) is the sparsity
of reward feedback. Often, what is available is an intuitive but sparse reward
function that only indicates whether the task is completed partially or fully.
However, the lack of carefully designed, fine grain feedback implies that most
existing RL algorithms fail to learn an acceptable policy in a reasonable time
frame. This is because of the large number of exploration actions that the
policy has to perform before it gets any useful feedback that it can learn
from. In this work, we address this challenging problem by developing an
algorithm that exploits the offline demonstration data generated by a
sub-optimal behavior policy for faster and efficient online RL in such sparse
reward settings. The proposed algorithm, which we call the Learning Online with
Guidance Offline (LOGO) algorithm, merges a policy improvement step with an
additional policy guidance step by using the offline demonstration data. The
key idea is that by obtaining guidance from - not imitating - the offline data,
LOGO orients its policy in the manner of the sub-optimal {policy}, while yet
being able to learn beyond and approach optimality. We provide a theoretical
analysis of our algorithm, and provide a lower bound on the performance
improvement in each learning episode. We also extend our algorithm to the even
more challenging incomplete observation setting, where the demonstration data
contains only a censored version of the true state observation. We demonstrate
the superior performance of our algorithm over state-of-the-art approaches on a
number of benchmark environments with sparse rewards and censored state.
Further, we demonstrate the value of our approach via implementing LOGO on a
mobile robot for trajectory tracking and obstacle avoidance, where it shows
excellent performance.
- Abstract(参考訳): 実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
多くの場合、利用可能なものは直感的だがスパースな報酬関数で、タスクが部分的に完了したか完全に完了したかのみを示す。
しかし、綿密な設計、微粒なフィードバックの欠如は、既存のRLアルゴリズムが妥当な時間枠で許容できるポリシーを学習できないことを意味する。
これは、ポリシーが学習できる有用なフィードバックを得る前に実行しなければならない多くの探索アクションが原因です。
そこで本研究では,サブ最適動作ポリシーによって生成されたオフラインデモデータを利用して,オンラインrlを迅速かつ効率的に活用するアルゴリズムを開発することで,この課題を解決する。
提案アルゴリズムはLearning Online with Guidance Offline (LOGO)アルゴリズムと呼ばれ、オフラインのデモデータを用いてポリシー改善ステップと追加のポリシーガイダンスステップをマージする。
キーとなるアイデアは、オフラインデータを模倣しない、というガイダンスを得ることによって、ロゴは、サブオプティマイズである{policy}のやり方でポリシーを定めながら、さらに学習し、最適性に近づくことができる、ということである。
本稿では,本アルゴリズムの理論的解析を行い,各学習エピソードにおける性能改善の限界を低くする。
また、我々のアルゴリズムは、実状態観測の検閲されたバージョンのみを含む、さらに困難な不完全な観測設定にまで拡張する。
我々は,厳密な報酬と検閲された状態を持つ多数のベンチマーク環境において,最先端のアプローチよりもアルゴリズムの優れた性能を示す。
さらに,移動ロボットにロゴを実装して追跡や障害物回避を行い,優れた性能を示すことで,このアプローチの価値を実証する。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。