論文の概要: Continuous Control with Action Quantization from Demonstrations
- arxiv url: http://arxiv.org/abs/2110.10149v1
- Date: Tue, 19 Oct 2021 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:56:54.535837
- Title: Continuous Control with Action Quantization from Demonstrations
- Title(参考訳): 実証からのアクション量子化による連続制御
- Authors: Robert Dadashi, L\'eonard Hussenot, Damien Vincent, Sertan Girgin,
Anton Raichuk, Matthieu Geist, Olivier Pietquin
- Abstract要約: 強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
- 参考スコア(独自算出の注目度): 35.44893918778709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), discrete actions, as opposed to continuous
actions, result in less complex exploration problems and the immediate
computation of the maximum of the action-value function which is central to
dynamic programming-based methods. In this paper, we propose a novel method:
Action Quantization from Demonstrations (AQuaDem) to learn a discretization of
continuous action spaces by leveraging the priors of demonstrations. This
dramatically reduces the exploration problem, since the actions faced by the
agent not only are in a finite number but also are plausible in light of the
demonstrator's behavior. By discretizing the action space we can apply any
discrete action deep RL algorithm to the continuous control problem. We
evaluate the proposed method on three different setups: RL with demonstrations,
RL with play data --demonstrations of a human playing in an environment but not
solving any specific task-- and Imitation Learning. For all three setups, we
only consider human data, which is more challenging than synthetic data. We
found that AQuaDem consistently outperforms state-of-the-art continuous control
methods, both in terms of performance and sample efficiency. We provide
visualizations and videos in the paper's website:
https://google-research.github.io/aquadem.
- Abstract(参考訳): 強化学習(rl)では、連続的なアクションとは対照的に離散的なアクションは、より複雑な探索問題や、動的プログラミングに基づくメソッドの中心となるアクション値関数の最大値の即時計算をもたらす。
本稿では,実演の事前情報を利用して連続的な動作空間の離散化を学ぶために,実演からの動作量子化(aquadem)を提案する。
これは、エージェントが直面したアクションが有限数であるだけでなく、実証者の行動に照らしても妥当であるため、探索問題を劇的に減少させる。
作用空間を離散化することにより、任意の離散的な作用深度RLアルゴリズムを連続制御問題に適用できる。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
これら3つの設定は、合成データよりも難しい人間のデータのみを考慮に入れます。
AQuaDemは、パフォーマンスとサンプル効率の両面で、最先端の継続的制御方法よりも一貫して優れています。
論文のWebサイトでは、視覚化とビデオを提供しています。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - MoDem: Accelerating Visual Model-Based Reinforcement Learning with
Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。
モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。
本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文 参考訳(メタデータ) (2022-12-12T04:28:50Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Learning Memory-Dependent Continuous Control from Demonstrations [13.063093054280948]
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。
いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
論文 参考訳(メタデータ) (2021-02-18T08:13:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。