論文の概要: Skill-Based Reinforcement Learning with Intrinsic Reward Matching
- arxiv url: http://arxiv.org/abs/2210.07426v2
- Date: Mon, 17 Oct 2022 06:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:28:36.589716
- Title: Skill-Based Reinforcement Learning with Intrinsic Reward Matching
- Title(参考訳): 固有リワードマッチングを用いたスキルベース強化学習
- Authors: Ademi Adeniji, Amber Xie, Pieter Abbeel
- Abstract要約: Intrinsic Reward Matching (IRM) を提案する。
IRMは、スキルポリシーに対応する識別器を介して、$textitintrinsic$ reward関数を学ぶ。
IRMは,Unsupervised Reinforcement Learning Benchmark上で,従来のスキル選択手法と競合することを示した。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While unsupervised skill discovery has shown promise in autonomously
acquiring behavioral primitives, there is still a large methodological
disconnect between task-agnostic skill pretraining and downstream, task-aware
finetuning. We present Intrinsic Reward Matching (IRM), which unifies these two
phases of learning via the $\textit{skill discriminator}$, a pretraining model
component often discarded during finetuning. Conventional approaches finetune
pretrained agents directly at the policy level, often relying on expensive
environment rollouts to empirically determine the optimal skill. However, often
the most concise yet complete description of a task is the reward function
itself, and skill learning methods learn an $\textit{intrinsic}$ reward
function via the discriminator that corresponds to the skill policy. We propose
to leverage the skill discriminator to $\textit{match}$ the intrinsic and
downstream task rewards and determine the optimal skill for an unseen task
without environment samples, consequently finetuning with greater
sample-efficiency. Furthermore, we generalize IRM to sequence skills and solve
more complex, long-horizon tasks. We demonstrate that IRM is competitive with
previous skill selection methods on the Unsupervised Reinforcement Learning
Benchmark and enables us to utilize pretrained skills far more effectively on
challenging tabletop manipulation tasks.
- Abstract(参考訳): 教師なしのスキル発見は、自律的な行動プリミティブ獲得において有望であるが、タスク非依存のスキル事前学習と下流のタスク対応の微調整の間には、大きな方法論的な切り離しがある。
我々は本質的報酬マッチング(irm)を示し、これらの2つの学習フェーズを$\textit{skill discriminator}$で統一する。
従来のアプローチでは、適切なスキルを実証的に決定するために、しばしば高価な環境のロールアウトに頼っている。
しかしながら、タスクの最も簡潔で完全な記述は報酬関数自身であり、スキル学習手法はスキルポリシーに対応する識別器を介して$\textit{intrinsic}$報酬関数を学ぶ。
そこで本研究では,環境サンプルを使わずに,固有および下流タスクの報酬を$\textit{match}$に設定し,未検出タスクの最適スキルを判定し,サンプル効率を向上させる手法を提案する。
さらに、IRMをシーケンススキルに一般化し、より複雑な長距離タスクを解く。
IRMは、教師なし強化学習ベンチマークにおける従来のスキル選択手法と競合し、テーブルトップ操作タスクにおいて、より効果的に事前訓練されたスキルを活用できることを実証する。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - APART: Diverse Skill Discovery using All Pairs with Ascending Reward and
DropouT [16.75358022780262]
報酬のない環境における多様なスキル発見について研究し、単純なグリッドワールド環境において可能なすべてのスキルを発見することを目的とした。
この問題は、本質的な報酬と、その軌道からスキルを予測するために訓練された判別器を用いて、スキルの相互訓練として定式化される。
我々の最初のソリューションは、標準の1-vs-all (softmax) 判別器を1-vs-one (all pairs) 判別器に置き換え、新しい固有報酬関数とドロップアウト正規化技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T08:46:43Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。