論文の概要: Continuous Control with Action Quantization from Demonstrations
- arxiv url: http://arxiv.org/abs/2110.10149v1
- Date: Tue, 19 Oct 2021 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:56:54.535837
- Title: Continuous Control with Action Quantization from Demonstrations
- Title(参考訳): 実証からのアクション量子化による連続制御
- Authors: Robert Dadashi, L\'eonard Hussenot, Damien Vincent, Sertan Girgin,
Anton Raichuk, Matthieu Geist, Olivier Pietquin
- Abstract要約: 強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
- 参考スコア(独自算出の注目度): 35.44893918778709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), discrete actions, as opposed to continuous
actions, result in less complex exploration problems and the immediate
computation of the maximum of the action-value function which is central to
dynamic programming-based methods. In this paper, we propose a novel method:
Action Quantization from Demonstrations (AQuaDem) to learn a discretization of
continuous action spaces by leveraging the priors of demonstrations. This
dramatically reduces the exploration problem, since the actions faced by the
agent not only are in a finite number but also are plausible in light of the
demonstrator's behavior. By discretizing the action space we can apply any
discrete action deep RL algorithm to the continuous control problem. We
evaluate the proposed method on three different setups: RL with demonstrations,
RL with play data --demonstrations of a human playing in an environment but not
solving any specific task-- and Imitation Learning. For all three setups, we
only consider human data, which is more challenging than synthetic data. We
found that AQuaDem consistently outperforms state-of-the-art continuous control
methods, both in terms of performance and sample efficiency. We provide
visualizations and videos in the paper's website:
https://google-research.github.io/aquadem.
- Abstract(参考訳): 強化学習(rl)では、連続的なアクションとは対照的に離散的なアクションは、より複雑な探索問題や、動的プログラミングに基づくメソッドの中心となるアクション値関数の最大値の即時計算をもたらす。
本稿では,実演の事前情報を利用して連続的な動作空間の離散化を学ぶために,実演からの動作量子化(aquadem)を提案する。
これは、エージェントが直面したアクションが有限数であるだけでなく、実証者の行動に照らしても妥当であるため、探索問題を劇的に減少させる。
作用空間を離散化することにより、任意の離散的な作用深度RLアルゴリズムを連続制御問題に適用できる。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
これら3つの設定は、合成データよりも難しい人間のデータのみを考慮に入れます。
AQuaDemは、パフォーマンスとサンプル効率の両面で、最先端の継続的制御方法よりも一貫して優れています。
論文のWebサイトでは、視覚化とビデオを提供しています。
関連論文リスト
- Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Learning Memory-Dependent Continuous Control from Demonstrations [13.063093054280948]
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。
いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。
このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
論文 参考訳(メタデータ) (2021-02-18T08:13:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。