論文の概要: Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic
Manipulation via Discretisation
- arxiv url: http://arxiv.org/abs/2106.12534v1
- Date: Wed, 23 Jun 2021 16:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:34:02.655300
- Title: Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic
Manipulation via Discretisation
- Title(参考訳): 粗Q注意:離散化による視覚ロボットマニピュレーションのための効率的な学習
- Authors: Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison
- Abstract要約: 我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。
本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。
我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
- 参考スコア(独自算出の注目度): 24.06630254918129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reflecting on the last few years, the biggest breakthroughs in deep
reinforcement learning (RL) have been in the discrete action domain. Robotic
manipulation, however, is inherently a continuous control environment, but
these continuous control reinforcement learning algorithms often depend on
actor-critic methods that are sample-inefficient and inherently difficult to
train, due to the joint optimisation of the actor and critic. To that end, we
explore how we can bring the stability of discrete action RL algorithms to the
robot manipulation domain. We extend the recently released ARM algorithm, by
replacing the continuous next-best pose agent with a discrete next-best pose
agent. Discretisation of rotation is trivial given its bounded nature, while
translation is inherently unbounded, making discretisation difficult. We
formulate the translation prediction as the voxel prediction problem by
discretising the 3D space; however, voxelisation of a large workspace is memory
intensive and would not work with a high density of voxels, crucial to
obtaining the resolution needed for robotic manipulation. We therefore propose
to apply this voxel prediction in a coarse-to-fine manner by gradually
increasing the resolution. In each step, we extract the highest valued voxel as
the predicted location, which is then used as the centre of the
higher-resolution voxelisation in the next step. This coarse-to-fine prediction
is applied over several steps, giving a near-lossless prediction of the
translation. We show that our new coarse-to-fine algorithm is able to
accomplish RLBench tasks much more efficiently than the continuous control
equivalent, and even train some real-world tasks, tabular rasa, in less than 7
minutes, with only 3 demonstrations. Moreover, we show that by moving to a
voxel representation, we are able to easily incorporate observations from
multiple cameras.
- Abstract(参考訳): 過去数年間を振り返ると、深層強化学習(RL)における最大のブレークスルーは、離散的なアクション領域にある。
しかし、ロボット操作は本質的には連続制御環境であるが、これらの連続制御強化学習アルゴリズムは、俳優と批評家の共同最適化のため、サンプル非効率で本質的に訓練が困難であるアクタ-批判的手法に依存することが多い。
そこで我々は,ロボット操作領域に離散型アクションrlアルゴリズムの安定性を実現する方法について検討する。
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。
回転の離散化はその有界性を考えると自明であるが、翻訳は本質的に非有界であり、離散化は困難である。
翻訳予測は3次元空間を判別することでボクセル予測問題として定式化するが、大きなワークスペースのボクセル化はメモリ集約的であり、ボクセルの密度が高く、ロボット操作に必要な解像度を得るのに不可欠である。
そこで我々は, このボクセル予測を, 分解能を徐々に高め, 粗い方法で適用することを提案する。
各ステップにおいて,予測位置として最も高い値のボクセルを抽出し,次のステップで高分解能ボクセル化の中心として使用する。
この粗大な予測はいくつかのステップで適用され、翻訳のほとんどロスレスな予測を与える。
我々の新しい粗大きめのアルゴリズムは、連続的な制御の同等性よりもずっと効率的にRLBenchのタスクを達成でき、実世界のタスクである表状のラザを7分以内で訓練し、わずか3回のデモしか行えません。
さらに,voxel表現に移行することで,複数のカメラからの観測を容易に取り入れることができることを示す。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences [20.879194337982803]
MAPF(Multi-Agent Path-Finding)アルゴリズムは、離散的な2Dドメインで保証され、厳密な保証を提供する。
本稿では,その反復的かつ漸進的な性質を活用して,競合に基づく探索アルゴリズムを高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T20:31:07Z) - Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Q-attention: Enabling Efficient Learning for Vision-based Robotic
Manipulation [23.273084933597207]
本稿では,アテンション駆動型ロボットマニピュレーション(ARM)アルゴリズムを提案する。
ARMは、スパース・リワードされたタスクに応用できる汎用的な操作アルゴリズムである。
我々は、現在の学習アルゴリズムがRLBenchタスクで失敗し、ARMが成功したことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:44:16Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。