Fugu-MT 論文翻訳(概要): Continuous Control with Action Quantization from Demonstrations

論文の概要: Continuous Control with Action Quantization from Demonstrations

arxiv url: http://arxiv.org/abs/2110.10149v1
Date: Tue, 19 Oct 2021 17:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 13:56:54.535837
Title: Continuous Control with Action Quantization from Demonstrations
Title（参考訳）: 実証からのアクション量子化による連続制御
Authors: Robert Dadashi, L\'eonard Hussenot, Damien Vincent, Sertan Girgin, Anton Raichuk, Matthieu Geist, Olivier Pietquin
Abstract要約: 強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
参考スコア（独自算出の注目度）: 35.44893918778709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In Reinforcement Learning (RL), discrete actions, as opposed to continuous actions, result in less complex exploration problems and the immediate computation of the maximum of the action-value function which is central to dynamic programming-based methods. In this paper, we propose a novel method: Action Quantization from Demonstrations (AQuaDem) to learn a discretization of continuous action spaces by leveraging the priors of demonstrations. This dramatically reduces the exploration problem, since the actions faced by the agent not only are in a finite number but also are plausible in light of the demonstrator's behavior. By discretizing the action space we can apply any discrete action deep RL algorithm to the continuous control problem. We evaluate the proposed method on three different setups: RL with demonstrations, RL with play data --demonstrations of a human playing in an environment but not solving any specific task-- and Imitation Learning. For all three setups, we only consider human data, which is more challenging than synthetic data. We found that AQuaDem consistently outperforms state-of-the-art continuous control methods, both in terms of performance and sample efficiency. We provide visualizations and videos in the paper's website: https://google-research.github.io/aquadem.
Abstract（参考訳）: 強化学習(rl)では、連続的なアクションとは対照的に離散的なアクションは、より複雑な探索問題や、動的プログラミングに基づくメソッドの中心となるアクション値関数の最大値の即時計算をもたらす。本稿では,実演の事前情報を利用して連続的な動作空間の離散化を学ぶために,実演からの動作量子化(aquadem)を提案する。これは、エージェントが直面したアクションが有限数であるだけでなく、実証者の行動に照らしても妥当であるため、探索問題を劇的に減少させる。作用空間を離散化することにより、任意の離散的な作用深度RLアルゴリズムを連続制御問題に適用できる。提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。これら3つの設定は、合成データよりも難しい人間のデータのみを考慮に入れます。 AQuaDemは、パフォーマンスとサンプル効率の両面で、最先端の継続的制御方法よりも一貫して優れています。論文のWebサイトでは、視覚化とビデオを提供しています。

関連論文リスト

Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文参考訳（メタデータ） (2025-03-26T22:05:57Z)
Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文参考訳（メタデータ） (2024-11-20T08:20:29Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文参考訳（メタデータ） (2024-06-13T04:39:42Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文参考訳（メタデータ） (2023-06-09T18:40:55Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
MoDem: Accelerating Visual Model-Based Reinforcement Learning with Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文参考訳（メタデータ） (2022-12-12T04:28:50Z)
A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文参考訳（メタデータ） (2022-09-09T03:02:49Z)
Reinforcement Learning with Sparse Rewards using Guidance from Offline Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文参考訳（メタデータ） (2022-02-09T18:45:40Z)
Learning Memory-Dependent Continuous Control from Demonstrations [13.063093054280948]
本論文では,メモリ依存型連続制御のデモンストレーションを再生するアイデアに基づいて構築する。いくつかのメモリ・クリティカルな連続制御タスクを含む実験は、環境との相互作用を著しく減少させる。このアルゴリズムは、デモからメモリベースの制御を行うためのベースライン強化学習アルゴリズムよりも、サンプル効率と学習能力も向上する。
論文参考訳（メタデータ） (2021-02-18T08:13:42Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。