論文の概要: Q-attention: Enabling Efficient Learning for Vision-based Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2105.14829v1
- Date: Mon, 31 May 2021 09:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:53:26.742792
- Title: Q-attention: Enabling Efficient Learning for Vision-based Robotic
Manipulation
- Title(参考訳): Q-attention:視覚に基づくロボットマニピュレーションのための効率的な学習の実現
- Authors: Stephen James and Andrew J. Davison
- Abstract要約: 本稿では,アテンション駆動型ロボットマニピュレーション(ARM)アルゴリズムを提案する。
ARMは、スパース・リワードされたタスクに応用できる汎用的な操作アルゴリズムである。
我々は、現在の学習アルゴリズムがRLBenchタスクで失敗し、ARMが成功したことを示す。
- 参考スコア(独自算出の注目度): 23.273084933597207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of reinforcement learning methods, they have yet to have
their breakthrough moment when applied to a broad range of robotic manipulation
tasks. This is partly due to the fact that reinforcement learning algorithms
are notoriously difficult and time consuming to train, which is exacerbated
when training from images rather than full-state inputs. As humans perform
manipulation tasks, our eyes closely monitor every step of the process with our
gaze focusing sequentially on the objects being manipulated. With this in mind,
we present our Attention-driven Robotic Manipulation (ARM) algorithm, which is
a general manipulation algorithm that can be applied to a range of
sparse-rewarded tasks, given only a small number of demonstrations. ARM splits
the complex task of manipulation into a 3 stage pipeline: (1) a Q-attention
agent extracts interesting pixel locations from RGB and point cloud inputs, (2)
a next-best pose agent that accepts crops from the Q-attention agent and
outputs poses, and (3) a control agent that takes the goal pose and outputs
joint actions. We show that current learning algorithms fail on a range of
RLBench tasks, whilst ARM is successful.
- Abstract(参考訳): 強化学習手法の成功にもかかわらず、ロボット操作の幅広いタスクに適用される場合、彼らはまだ画期的な瞬間を持っていない。
これは、強化学習アルゴリズムが訓練に非常に難しく、時間を要することで知られており、フルステート入力ではなく画像からのトレーニングでさらに悪化しているためである。
人間が操作タスクを実行すると、目はプロセスのすべてのステップを注意深く監視し、目は操作対象に順次焦点を合わせます。
このことを念頭に置いて、少数の実演のみを前提として、スパース逆タスクの範囲に適用可能な汎用的な操作アルゴリズムであるアテンション駆動型ロボットマニピュレーション(ARM)アルゴリズムを提案する。
armは、複雑な操作のタスクを3段階のパイプラインに分割する:(1) q-attention agentは、rgbとpoint cloudの入力から興味深いピクセルロケーションを抽出し、(2)q-attention agentから作物を受け取り、ポーズを出力する次善のポーズエージェント、(3)目標のポーズを取って共同アクションを出力するコントロールエージェントである。
我々は、現在の学習アルゴリズムがRLBenchタスクで失敗し、ARMが成功したことを示す。
関連論文リスト
- PRISE: Learning Temporal Action Abstractions as a Sequence Compression
Problem [42.48407749973668]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Decoupling Skill Learning from Robotic Control for Generalizable Object
Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。
これは関節制御のための高次元の作用空間によるものであると推測する。
本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。
ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文 参考訳(メタデータ) (2023-03-07T16:31:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Towards a Sample Efficient Reinforcement Learning Pipeline for Vision
Based Robotics [0.0]
我々は,ロボットアームの訓練に要する時間を制限するために,パイプラインをできるだけ効率的に組み立てることによって,スクラッチからボールに到達するための時間を制限する方法について検討した。
パイプラインは、RGBビデオから関連する情報をComputer Visionアルゴリズムでキャプチャする、という2つの部分に分けられる。
もうひとつは、Deep Reinforcement Learning(深層強化学習)アルゴリズムを使って、ロボットアームが自分の前にあるターゲットに到達できるように、より速くトレーニングする方法だ。
論文 参考訳(メタデータ) (2021-05-20T13:13:01Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。