論文の概要: TempoRL: Learning When to Act
- arxiv url: http://arxiv.org/abs/2106.05262v1
- Date: Wed, 9 Jun 2021 17:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:01:43.747663
- Title: TempoRL: Learning When to Act
- Title(参考訳): TempoRL: いつ行動するかを学ぶ
- Authors: Andr\'e Biedenkapp and Raghu Rajan and Frank Hutter and Marius
Lindauer
- Abstract要約: 強化学習は環境との相互作用を通じて行動を学ぶための強力なアプローチである。
エージェントが状態のアクションを選択し、そのアクションにどれくらいの期間コミットするかをプロアクティブに設定する。
当社のTempoRLアプローチでは、状態間のスキップ接続を導入し、これらのスキップに沿って同じアクションを繰り返すスキップポリシーを学びます。
本研究では,従来のRL環境におけるTempoRLの有効性を実証し,本手法がバニラQ-ラーニングよりも格段に高速にポリシーを学習可能であることを示した。
- 参考スコア(独自算出の注目度): 34.8990562818147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a powerful approach to learn behaviour through
interactions with an environment. However, behaviours are usually learned in a
purely reactive fashion, where an appropriate action is selected based on an
observation. In this form, it is challenging to learn when it is necessary to
execute new decisions. This makes learning inefficient, especially in
environments that need various degrees of fine and coarse control. To address
this, we propose a proactive setting in which the agent not only selects an
action in a state but also for how long to commit to that action. Our TempoRL
approach introduces skip connections between states and learns a skip-policy
for repeating the same action along these skips. We demonstrate the
effectiveness of TempoRL on a variety of traditional and deep RL environments,
showing that our approach is capable of learning successful policies up to an
order of magnitude faster than vanilla Q-learning.
- Abstract(参考訳): 強化学習は環境との相互作用を通じて行動を学ぶための強力なアプローチである。
しかしながら、振る舞いは通常、観察に基づいて適切なアクションが選択される純粋にリアクティブな方法で学習される。
この形式では、いつ新しい決定を行う必要があるかを学ぶことは困難である。
これは学習を非効率にし、特に様々な細かい制御と粗い制御を必要とする環境において。
これを解決するために,エージェントが状態のアクションを選択するだけでなく,そのアクションにどれくらいの期間コミットするかを判断するプロアクティブ設定を提案する。
当社のtemporlアプローチでは、状態間のスキップ接続を導入し、同じアクションをスキップで繰り返すためのスキップポリシを学びます。
我々は,従来型および深層rl環境におけるtemporlの有効性を実証し,提案手法がvailla q-learningより1桁早く成功したポリシーを学習できることを示した。
関連論文リスト
- PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control [15.720231070808696]
本稿では,明示的な動作を伴わない新しい階層型強化学習フレームワークを提案する。
我々のメタポリシーは次の最適状態の操作を試み、実際の動作は逆ダイナミクスモデルによって生成される。
我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。
論文 参考訳(メタデータ) (2020-11-02T15:28:19Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Reinforcement Learning with Iterative Reasoning for Merging in Dense
Traffic [41.46201285202203]
密集した交通量を減らすことは、自動運転車にとって難しい課題だ。
本稿では,強化学習とゲーム理論を組み合わせて,融合行動の学習を行う。
論文 参考訳(メタデータ) (2020-05-25T02:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。