Fugu-MT 論文翻訳(概要): Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning

論文の概要: Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2309.04459v1
Date: Fri, 8 Sep 2023 17:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 12:44:43.007671
Title: Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning
Title（参考訳）: スキルとしてのサブワード:スパース・リワード強化学習のためのトークン化
Authors: David Yunis, Justin Jung, Falcon Dai, Matthew Walter
Abstract要約: これらの問題に対処するために設計されたメソッドの1つのクラスは、同じドメインで収集されたインタラクションデータからしばしばスキルと呼ばれる時間的に拡張されたアクションを形成する。まず、クラスタリングによってアクション空間を識別し、次に、自然言語処理から借用したトークン化技術を利用して、時間的に拡張されたアクションを生成する。
参考スコア（独自算出の注目度）: 0.927288201613285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploration in sparse-reward reinforcement learning is difficult due to the requirement of long, coordinated sequences of actions in order to achieve any reward. Moreover, in continuous action spaces there are an infinite number of possible actions, which only increases the difficulty of exploration. One class of methods designed to address these issues forms temporally extended actions, often called skills, from interaction data collected in the same domain, and optimizes a policy on top of this new action space. Typically such methods require a lengthy pretraining phase, especially in continuous action spaces, in order to form the skills before reinforcement learning can begin. Given prior evidence that the full range of the continuous action space is not required in such tasks, we propose a novel approach to skill-generation with two components. First we discretize the action space through clustering, and second we leverage a tokenization technique borrowed from natural language processing to generate temporally extended actions. Such a method outperforms baselines for skill-generation in several challenging sparse-reward domains, and requires orders-of-magnitude less computation in skill-generation and online rollouts.
Abstract（参考訳）: スパース・リワード強化学習の探索は、報酬を達成するために長い協調された行動列を必要とするため困難である。さらに、連続作用空間には無限個の可能な作用があり、探索の困難さを増すだけである。これらの問題に対処するために設計された方法の1つのクラスは、同じドメインで収集されたインタラクションデータからしばしばスキルと呼ばれる時間的に拡張されたアクションを形成し、この新しいアクション空間上のポリシーを最適化する。典型的には、強化学習が始まる前にスキルを形成するためには、特に連続的な行動空間において、長い事前訓練フェーズが必要である。このようなタスクには連続的な行動空間の完全な範囲が不要であるという事前の証拠を考慮し、2つのコンポーネントによるスキルジェネレーションの新たなアプローチを提案する。まず、クラスタリングによってアクション空間を識別し、次に、自然言語処理から借用したトークン化技術を利用して時間的に拡張されたアクションを生成する。このような方法は、いくつかの難解なスパースワードドメインにおけるスキル生成のベースラインを上回り、スキル生成とオンラインロールアウトの桁違いな計算を要求される。

関連論文リスト

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文参考訳（メタデータ） (2024-03-19T15:41:39Z)
PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T04:55:09Z)
Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。 CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文参考訳（メタデータ） (2022-11-18T14:59:42Z)
Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文参考訳（メタデータ） (2022-04-07T15:29:27Z)
Temporal Abstractions-Augmented Temporally Contrastive Learning: An Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文参考訳（メタデータ） (2022-03-21T22:07:48Z)
Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文参考訳（メタデータ） (2021-11-15T18:59:03Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文参考訳（メタデータ） (2021-06-05T18:41:57Z)
Hierarchical reinforcement learning for efficient exploration and transfer [7.70406430636194]
不変状態空間の圧縮に基づく新しい階層型強化学習フレームワークを提案する。その結果, 複雑なスパース・リワード領域を解き, 知識を伝達することで, 未確認タスクをより迅速に解けることが示唆された。
論文参考訳（メタデータ） (2020-11-12T12:09:13Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。