論文の概要: Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.00324v2
- Date: Mon, 8 Jul 2024 20:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:52:10.277281
- Title: Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning
- Title(参考訳): 目標達成強化学習のためのスパース・リワードの再検討
- Authors: Gautham Vasan, Yan Wang, Fahim Shahriar, James Bergstra, Martin Jagersand, A. Rupam Mahmood,
- Abstract要約: 一定の負の報酬を用いて2~3時間以内に画素ベースのポリシーをスクラッチから学習できることが示される。
4つの異なる実ロボティックプラットフォームを用いて, 一定の負の報酬を用いて, ゼロから2~3時間以内に画素ベースのポリシーを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 7.740002320506015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world robot learning problems, such as pick-and-place or arriving at a destination, can be seen as a problem of reaching a goal state as soon as possible. These problems, when formulated as episodic reinforcement learning tasks, can easily be specified to align well with our intended goal: -1 reward every time step with termination upon reaching the goal state, called minimum-time tasks. Despite this simplicity, such formulations are often overlooked in favor of dense rewards due to their perceived difficulty and lack of informativeness. Our studies contrast the two reward paradigms, revealing that the minimum-time task specification not only facilitates learning higher-quality policies but can also surpass dense-reward-based policies on their own performance metrics. Crucially, we also identify the goal-hit rate of the initial policy as a robust early indicator for learning success in such sparse feedback settings. Finally, using four distinct real-robotic platforms, we show that it is possible to learn pixel-based policies from scratch within two to three hours using constant negative rewards.
- Abstract(参考訳): 多くの現実のロボット学習問題、例えばピック・アンド・プレイスや目的地への到着は、できるだけ早くゴール状態に達する問題と見なすことができる。
これらの問題は、エピソジック強化学習タスクとして定式化されると、目的とする目標と整合するように容易に特定できる。
このような単純さにもかかわらず、そのような定式化は、しばしばその困難さと情報提供性の欠如により、密集した報酬を優先して見過ごされる。
我々の研究は2つの報酬パラダイムとは対照的に、最小時のタスク仕様は、高品質なポリシーの学習を促進するだけでなく、自身のパフォーマンス指標における厳密なリワードベースのポリシーを超越する可能性があることを明らかにしている。
重要な点として、このような疎いフィードバック設定での成功を学習する上で、初期方針のゴール・ヒット率を堅牢な早期指標とみなす。
最後に, 4つの異なる実ロボティックプラットフォームを用いて, 一定の負の報酬を用いて, ゼロから2~3時間以内に画素ベースのポリシーを学習可能であることを示す。
関連論文リスト
- Backward Learning for Goal-Conditioned Policies [3.3181276611945263]
本稿では,まず逆行する世界モデルを学習し,第2に目標到達逆行を発生させ,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改良する多段階手順を提案する。
我々は,64ドル64セントの鳥の眼像を6,4倍の確率で観測できる決定論的迷路環境において,その有効性を検証し,連続的にいくつかの目標を達成することを示す。
論文 参考訳(メタデータ) (2023-12-08T13:52:16Z) - Signal Temporal Logic-Guided Apprenticeship Learning [6.8500997328311]
本稿では,高レベルタスクの目的を記述した時間論理仕様をグラフにエンコードして,時間的基準を定義する方法を示す。
制御ポリシの学習に必要な実演回数を大幅に改善することで,従来の文献の欠点を克服する方法について述べる。
論文 参考訳(メタデータ) (2023-11-09T00:59:28Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。