論文の概要: Depth by Poking: Learning to Estimate Depth from Self-Supervised
Grasping
- arxiv url: http://arxiv.org/abs/2006.08903v1
- Date: Tue, 16 Jun 2020 03:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:38:53.421961
- Title: Depth by Poking: Learning to Estimate Depth from Self-Supervised
Grasping
- Title(参考訳): ポーキングによる深さ:自己監督型グラフプから深さを推定する学習
- Authors: Ben Goodrich, Alex Kuefler, William D. Richards
- Abstract要約: 我々は、RGB-D画像から深度を推定するためにニューラルネットワークモデルを訓練する。
我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。
本手法は従来の構造光センサよりも根平均二乗誤差が有意に低いことを示す。
- 参考スコア(独自算出の注目度): 6.382990675677317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate depth estimation remains an open problem for robotic manipulation;
even state of the art techniques including structured light and LiDAR sensors
fail on reflective or transparent surfaces. We address this problem by training
a neural network model to estimate depth from RGB-D images, using labels from
physical interactions between a robot and its environment. Our network
predicts, for each pixel in an input image, the z position that a robot's end
effector would reach if it attempted to grasp or poke at the corresponding
position. Given an autonomous grasping policy, our approach is self-supervised
as end effector position labels can be recovered through forward kinematics,
without human annotation. Although gathering such physical interaction data is
expensive, it is necessary for training and routine operation of state of the
art manipulation systems. Therefore, this depth estimator comes ``for free''
while collecting data for other tasks (e.g., grasping, pushing, placing). We
show our approach achieves significantly lower root mean squared error than
traditional structured light sensors and unsupervised deep learning methods on
difficult, industry-scale jumbled bin datasets.
- Abstract(参考訳): 正確な深度推定はロボット操作には未解決の問題であり、構造化光やLiDARセンサーを含む最先端技術でさえ反射や透明な表面では失敗する。
本稿では,ロボットと環境との物理的相互作用のラベルを用いて,RGB-D画像から深度を推定するニューラルネットワークモデルを訓練することにより,この問題に対処する。
我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。
自律的な把握ポリシを前提として,エンドエフェクタの位置ラベルを人間のアノテーションなしでフォワードキネマティクスで復元できるため,本手法は自己管理される。
このような物理的相互作用データの収集は高価であるが,技術操作システムの訓練や定期運用には必要である。
したがって、この深さ推定器は、他のタスク(例えば、つかみ、押す、配置)のデータを収集しながら ``for free'' となる。
本手法は,従来の構造化光センサや非教師なし深層学習法に比べて,非常に低い根元平均二乗誤差を実現できることを示す。
関連論文リスト
- Embodiment: Self-Supervised Depth Estimation Based on Camera Models [17.931220115676258]
自己監督法はラベル付けコストを伴わないため、大きな可能性を秘めている。
しかし, 自己指導型学習は, 3次元再構成と深度推定性能において, 教師あり学習と大きなギャップがある。
カメラの物理的特性をモデルに埋め込むことで、地上領域と地上に接続された領域の深さ先を計算できる。
論文 参考訳(メタデータ) (2024-08-02T20:40:19Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Markerless Camera-to-Robot Pose Estimation via Self-supervised
Sim-to-Real Transfer [26.21320177775571]
本稿では,オンラインカメラ・ロボット・キャリブレーションと自己監督型トレーニング手法を備えたエンドツーエンドのポーズ推定フレームワークを提案する。
我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。
論文 参考訳(メタデータ) (2023-02-28T05:55:42Z) - A Distance-Geometric Method for Recovering Robot Joint Angles From an
RGB Image [7.971699294672282]
本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する手法を提案する。
提案手法は,構成空間の距離幾何学的表現に基づいて,ロボットの運動モデルに関する知識を活用する。
論文 参考訳(メタデータ) (2023-01-05T12:57:45Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z) - Self-Supervised Object-in-Gripper Segmentation from Robotic Motions [27.915309216800125]
ロボットが把握した未知の物体をセグメント化するための頑健な解法を提案する。
我々はRGBビデオシーケンスにおける動きと時間的手がかりを利用する。
当社のアプローチは、カメラキャリブレーションや3Dモデル、あるいは潜在的に不完全な深度データとは独立して、完全に自己管理されている。
論文 参考訳(メタデータ) (2020-02-11T15:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。