Fugu-MT 論文翻訳(概要): Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples

論文の概要: Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples

arxiv url: http://arxiv.org/abs/2407.03311v2
Date: Mon, 9 Sep 2024 02:01:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:51:43.194678
Title: Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples
Title（参考訳）: 実例からの値ペナライズされた補助制御による説明のない効率的な模倣
Authors: Trevor Ablett, Bryan Chan, Jayce Haoran Wang, Jonathan Kelly,
Abstract要約: 本研究は,実例に基づく探索を改善するアルゴリズムである例(VPACE)から有償補助制御を導入する。本稿では,VPACEが有界値の推定値を維持しながら,課題の学習効率を大幅に向上することを示す。予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという一般的なアプローチよりも効率的に学習できることを示唆している。
参考スコア（独自算出の注目度）: 6.777249026160499
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from examples of success is an ap pealing approach to reinforcement learning but it presents a challenging exploration problem, especially for complex or long-horizon tasks. This work introduces value-penalized auxiliary control from examples (VPACE), an algorithm that significantly improves exploration in example-based control by adding examples of simple auxiliary tasks. For instance, a manipulation task may have auxiliary examples of an object being reached for, grasped, or lifted. We show that the na\"{i}ve application of scheduled auxiliary control to example-based learning can lead to value overestimation and poor performance. We resolve the problem with an above-success-level value penalty. Across both simulated and real robotic environments, we show that our approach substantially improves learning efficiency for challenging tasks, while maintaining bounded value estimates. We compare with existing approaches to example-based learning, inverse reinforcement learning, and an exploration bonus. Preliminary results also suggest that VPACE may learn more efficiently than the more common approaches of using full trajectories or true sparse rewards. Videos, code, and datasets: https://papers.starslab.ca/vpace.
Abstract（参考訳）: 成功例から学ぶことは、強化学習への謝罪的なアプローチであるが、特に複雑なタスクや長期のタスクにおいて、挑戦的な探索問題を提示している。本研究は、単純な補助タスクの例を追加することで、サンプルベースでの探索を著しく改善するアルゴリズムである例からの値ペン化補助制御(VPACE)を導入する。例えば、操作タスクは、オブジェクトが到達したり、つかんだり、持ち上げられたりする際の補助的な例を持つかもしれない。実例に基づく学習にスケジュールされた補助的制御を適用すれば、価値過大評価や性能低下につながることが示されている。上記のレベルの値ペナルティで問題を解決します。シミュレーションと実際のロボット環境の両面で、我々のアプローチは、有界値の推定を維持しながら、課題に対する学習効率を大幅に改善することを示します。サンプルベース学習,逆強化学習,探索ボーナスに対する既存のアプローチとの比較を行った。予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという、より一般的なアプローチよりも効率的に学習できることを示唆している。ビデオ、コード、データセット:https://papers.starslab.ca/vpace.com

関連論文リスト

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-06T11:33:12Z)
Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文参考訳（メタデータ） (2024-01-25T15:06:40Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文参考訳（メタデータ） (2022-05-20T20:30:57Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文参考訳（メタデータ） (2021-12-16T14:58:08Z)
Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2021-12-02T13:07:29Z)
Learning by Examples Based on Multi-level Optimization [12.317568257671427]
我々はLBE(Learning By Examples)と呼ばれる新しい学習手法を提案する。提案手法では,クエリサンプルに類似したトレーニングサンプルの集合を自動的に検索し,検索したサンプルのクラスラベルを用いてクエリサンプルのラベルを予測する。様々なベンチマークにおいて,教師付き学習と少数ショット学習の両方において,本手法の有効性を実証する実験を行った。
論文参考訳（メタデータ） (2021-09-22T16:33:06Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。ゼロ次監視政策改善(ZOSPI)を提案する。 ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文参考訳（メタデータ） (2020-06-11T16:49:23Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。