論文の概要: Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning
- arxiv url: http://arxiv.org/abs/2411.12155v2
- Date: Wed, 29 Jan 2025 18:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:02.082803
- Title: Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning
- Title(参考訳): データ効率のよいロボット学習のための行動系列付き粗大Qネットワーク
- Authors: Younggyo Seo, Pieter Abbeel,
- Abstract要約: 本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
- 参考スコア(独自算出の注目度): 62.3886343725955
- License:
- Abstract: In reinforcement learning (RL), we train a value function to understand the long-term consequence of executing a single action. However, the value of taking each action can be ambiguous in robotics as robot movements are typically the aggregate result of executing multiple small actions. Moreover, robotic training data often consists of noisy trajectories, in which each action is noisy but executing a series of actions results in a meaningful robot movement. This further makes it difficult for the value function to understand the effect of individual actions. To address this, we introduce Coarse-to-fine Q-Network with Action Sequence (CQN-AS), a novel value-based RL algorithm that learns a critic network that outputs Q-values over a sequence of actions, i.e., explicitly training the value function to learn the consequence of executing action sequences. We study our algorithm on 53 robotic tasks with sparse and dense rewards, as well as with and without demonstrations, from BiGym, HumanoidBench, and RLBench. We find that CQN-AS outperforms various baselines, in particular on humanoid control tasks.
- Abstract(参考訳): 強化学習(RL)では、1つのアクションを実行する長期的な結果を理解するために値関数を訓練する。
しかしながら、ロボットの動きは、通常、複数の小さなアクションを実行する集合結果であるので、ロボット工学において各アクションを取る価値は曖昧である。
さらに、ロボットのトレーニングデータは、しばしばノイズの多い軌跡からなり、それぞれの動作はうるさいが、一連の動作は有意義なロボットの動きをもたらす。
これにより、値関数が個々のアクションの効果を理解することがさらに困難になる。
そこで本研究では,アクションシーケンスの実行結果を学習するために,アクションシーケンス上でQ値を出力する批判ネットワークを学習する,新しい値ベースRLアルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
提案アルゴリズムは,BiGym,HumanoidBench,RLBenchの53のロボットタスクに対して,疎密かつ高密度な報酬と実演の有無で検討する。
CQN-ASは、特にヒューマノイド制御タスクにおいて、様々なベースラインを上回ります。
関連論文リスト
- Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。