論文の概要: Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples
- arxiv url: http://arxiv.org/abs/2407.03311v2
- Date: Mon, 9 Sep 2024 02:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:51:43.194678
- Title: Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples
- Title(参考訳): 実例からの値ペナライズされた補助制御による説明のない効率的な模倣
- Authors: Trevor Ablett, Bryan Chan, Jayce Haoran Wang, Jonathan Kelly,
- Abstract要約: 本研究は,実例に基づく探索を改善するアルゴリズムである例(VPACE)から有償補助制御を導入する。
本稿では,VPACEが有界値の推定値を維持しながら,課題の学習効率を大幅に向上することを示す。
予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという一般的なアプローチよりも効率的に学習できることを示唆している。
- 参考スコア(独自算出の注目度): 6.777249026160499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from examples of success is an ap pealing approach to reinforcement learning but it presents a challenging exploration problem, especially for complex or long-horizon tasks. This work introduces value-penalized auxiliary control from examples (VPACE), an algorithm that significantly improves exploration in example-based control by adding examples of simple auxiliary tasks. For instance, a manipulation task may have auxiliary examples of an object being reached for, grasped, or lifted. We show that the na\"{i}ve application of scheduled auxiliary control to example-based learning can lead to value overestimation and poor performance. We resolve the problem with an above-success-level value penalty. Across both simulated and real robotic environments, we show that our approach substantially improves learning efficiency for challenging tasks, while maintaining bounded value estimates. We compare with existing approaches to example-based learning, inverse reinforcement learning, and an exploration bonus. Preliminary results also suggest that VPACE may learn more efficiently than the more common approaches of using full trajectories or true sparse rewards. Videos, code, and datasets: https://papers.starslab.ca/vpace.
- Abstract(参考訳): 成功例から学ぶことは、強化学習への謝罪的なアプローチであるが、特に複雑なタスクや長期のタスクにおいて、挑戦的な探索問題を提示している。
本研究は、単純な補助タスクの例を追加することで、サンプルベースでの探索を著しく改善するアルゴリズムである例からの値ペン化補助制御(VPACE)を導入する。
例えば、操作タスクは、オブジェクトが到達したり、つかんだり、持ち上げられたりする際の補助的な例を持つかもしれない。
実例に基づく学習にスケジュールされた補助的制御を適用すれば、価値過大評価や性能低下につながることが示されている。
上記のレベルの値ペナルティで問題を解決します。
シミュレーションと実際のロボット環境の両面で、我々のアプローチは、有界値の推定を維持しながら、課題に対する学習効率を大幅に改善することを示します。
サンプルベース学習,逆強化学習,探索ボーナスに対する既存のアプローチとの比較を行った。
予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという、より一般的なアプローチよりも効率的に学習できることを示唆している。
ビデオ、コード、データセット:https://papers.starslab.ca/vpace.com
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - Learning by Examples Based on Multi-level Optimization [12.317568257671427]
我々はLBE(Learning By Examples)と呼ばれる新しい学習手法を提案する。
提案手法では,クエリサンプルに類似したトレーニングサンプルの集合を自動的に検索し,検索したサンプルのクラスラベルを用いてクエリサンプルのラベルを予測する。
様々なベンチマークにおいて,教師付き学習と少数ショット学習の両方において,本手法の有効性を実証する実験を行った。
論文 参考訳(メタデータ) (2021-09-22T16:33:06Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。