論文の概要: An Efficient Image-to-Image Translation HourGlass-based Architecture for
Object Pushing Policy Learning
- arxiv url: http://arxiv.org/abs/2108.01034v1
- Date: Mon, 2 Aug 2021 16:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 18:09:48.073554
- Title: An Efficient Image-to-Image Translation HourGlass-based Architecture for
Object Pushing Policy Learning
- Title(参考訳): オブジェクトプッシュポリシー学習のための高能率画像変換HourGlassアーキテクチャ
- Authors: Marco Ewerton, Angel Mart\'inez-Gonz\'alez, Jean-Marc Odobez
- Abstract要約: 人間は日常のタスクを強制的に解決するが、これらの能力を解き放つことはロボティクスの課題だ。
本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。
我々は, UR5ロボットアームを用いたシミュレーション実験において, DQNがより速く学習し, 高い性能を達成するためのアーキテクチャを実証した。
- 参考スコア(独自算出の注目度): 20.77172985076276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans effortlessly solve pushing tasks in everyday life but unlocking these
capabilities remains a challenge in robotics because physics models of these
tasks are often inaccurate or unattainable. State-of-the-art data-driven
approaches learn to compensate for these inaccuracies or replace the
approximated physics models altogether. Nevertheless, approaches like Deep
Q-Networks (DQNs) suffer from local optima in large state-action spaces.
Furthermore, they rely on well-chosen deep learning architectures and learning
paradigms. In this paper, we propose to frame the learning of pushing policies
(where to push and how) by DQNs as an image-to-image translation problem and
exploit an Hourglass-based architecture. We present an architecture combining a
predictor of which pushes lead to changes in the environment with a
state-action value predictor dedicated to the pushing task. Moreover, we
investigate positional information encoding to learn position-dependent policy
behaviors. We demonstrate in simulation experiments with a UR5 robot arm that
our overall architecture helps the DQN learn faster and achieve higher
performance in a pushing task involving objects with unknown dynamics.
- Abstract(参考訳): 人間は日常におけるタスクの押し出しを無力に解決するが、これらの能力の解錠はロボット工学の課題であり続けている。
最先端のデータ駆動アプローチは、これらの不正確さを補うか、近似した物理モデルを完全に置き換えるかを学ぶ。
それでも、Deep Q-Networks (DQN) のようなアプローチは、大きな状態作用空間における局所的な最適性に悩まされている。
さらに、深層学習アーキテクチャや学習パラダイムにも依存している。
本稿では,dqnsによるプッシュポリシーの学習を画像から画像への翻訳問題として枠組み化し,砂時計ベースのアーキテクチャを活用することを提案する。
本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。
さらに,位置依存型政策行動学習のための位置情報符号化について検討する。
我々は、ur5ロボットアームを用いたシミュレーション実験で、dqnがより速く学習し、未知のダイナミクスを持つオブジェクトを含むプッシュタスクにおいて高いパフォーマンスを達成するのに役立つことを実証した。
関連論文リスト
- Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Neural Architecture Search for Dense Prediction Tasks in Computer Vision [74.9839082859151]
ディープラーニングは、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。
ニューラルネットワーク検索(NAS)は、手動ではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としている。
NASはコンピュータビジョンの幅広い問題に適用されている。
論文 参考訳(メタデータ) (2022-02-15T08:06:50Z) - Combining Commonsense Reasoning and Knowledge Acquisition to Guide Deep
Learning in Robotics [8.566457170664926]
本稿では,認知システムの研究からインスピレーションを得たアーキテクチャについて述べる。
ディープネットワークモデルは、ロボット工学とAIにおける多くのパターン認識と意思決定タスクに使用されている。
我々のアーキテクチャは意思決定の信頼性を改善し、データ駆動のディープネットワークモデルのトレーニングに関わる労力を削減する。
論文 参考訳(メタデータ) (2022-01-25T12:24:22Z) - Improving the sample-efficiency of neural architecture search with
reinforcement learning [0.0]
この作業では、Automated Machine Learning(AutoML)の領域にコントリビュートしたいと思っています。
我々の焦点は、最も有望な研究方向の一つ、強化学習である。
児童ネットワークの検証精度は、コントローラを訓練するための報奨信号として機能する。
我々は、これをより現代的で複雑なアルゴリズムであるPPOに修正することを提案する。
論文 参考訳(メタデータ) (2021-10-13T14:30:09Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - 3D_DEN: Open-ended 3D Object Recognition using Dynamically Expandable
Networks [0.0]
本研究では,新しい3Dオブジェクトカテゴリをオープンエンドで学習できるロボットを実現するために,動的アーキテクチャに基づく新しい深層移動学習手法を提案する。
実験結果から,提案手法は精度に優れ,計算オーバーヘッドを大幅に最小化できることがわかった。
論文 参考訳(メタデータ) (2020-09-15T16:44:18Z) - Robotic Grasp Manipulation Using Evolutionary Computing and Deep
Reinforcement Learning [0.0]
人間は、何年にもわたって学習しているので、物体をつかむために操作する方法をすぐに知っています。
本稿では,課題を位置学習と向き学習の両方に分解することで,学習に基づくポーズ推定を開発することの課題を取り上げている。
提案したアーキテクチャとアルゴリズムに基づいて、ロボットは通常の形状の剛体物体をすべて把握することができる。
論文 参考訳(メタデータ) (2020-01-15T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。