論文の概要: Subwords as Skills: Tokenization for Sparse-Reward Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.04459v1
- Date: Fri, 8 Sep 2023 17:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 12:44:43.007671
- Title: Subwords as Skills: Tokenization for Sparse-Reward Reinforcement
Learning
- Title(参考訳): スキルとしてのサブワード:スパース・リワード強化学習のためのトークン化
- Authors: David Yunis, Justin Jung, Falcon Dai, Matthew Walter
- Abstract要約: これらの問題に対処するために設計されたメソッドの1つのクラスは、同じドメインで収集されたインタラクションデータからしばしばスキルと呼ばれる時間的に拡張されたアクションを形成する。
まず、クラスタリングによってアクション空間を識別し、次に、自然言語処理から借用したトークン化技術を利用して、時間的に拡張されたアクションを生成する。
- 参考スコア(独自算出の注目度): 0.927288201613285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration in sparse-reward reinforcement learning is difficult due to the
requirement of long, coordinated sequences of actions in order to achieve any
reward. Moreover, in continuous action spaces there are an infinite number of
possible actions, which only increases the difficulty of exploration. One class
of methods designed to address these issues forms temporally extended actions,
often called skills, from interaction data collected in the same domain, and
optimizes a policy on top of this new action space. Typically such methods
require a lengthy pretraining phase, especially in continuous action spaces, in
order to form the skills before reinforcement learning can begin. Given prior
evidence that the full range of the continuous action space is not required in
such tasks, we propose a novel approach to skill-generation with two
components. First we discretize the action space through clustering, and second
we leverage a tokenization technique borrowed from natural language processing
to generate temporally extended actions. Such a method outperforms baselines
for skill-generation in several challenging sparse-reward domains, and requires
orders-of-magnitude less computation in skill-generation and online rollouts.
- Abstract(参考訳): スパース・リワード強化学習の探索は、報酬を達成するために長い協調された行動列を必要とするため困難である。
さらに、連続作用空間には無限個の可能な作用があり、探索の困難さを増すだけである。
これらの問題に対処するために設計された方法の1つのクラスは、同じドメインで収集されたインタラクションデータからしばしばスキルと呼ばれる時間的に拡張されたアクションを形成し、この新しいアクション空間上のポリシーを最適化する。
典型的には、強化学習が始まる前にスキルを形成するためには、特に連続的な行動空間において、長い事前訓練フェーズが必要である。
このようなタスクには連続的な行動空間の完全な範囲が不要であるという事前の証拠を考慮し、2つのコンポーネントによるスキルジェネレーションの新たなアプローチを提案する。
まず、クラスタリングによってアクション空間を識別し、次に、自然言語処理から借用したトークン化技術を利用して時間的に拡張されたアクションを生成する。
このような方法は、いくつかの難解なスパースワードドメインにおけるスキル生成のベースラインを上回り、スキル生成とオンラインロールアウトの桁違いな計算を要求される。
関連論文リスト
- Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-18T14:59:42Z) - Latent Plans for Task-Agnostic Offline Reinforcement Learning [32.938030244921755]
本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。
我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
論文 参考訳(メタデータ) (2022-09-19T12:27:15Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。
そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。
次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文 参考訳(メタデータ) (2022-04-07T15:29:27Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。