論文の概要: RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training
- arxiv url: http://arxiv.org/abs/2411.17662v1
- Date: Tue, 26 Nov 2024 18:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:31:13.984727
- Title: RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training
- Title(参考訳): RoboPEPP:予測事前学習の埋め込みによる視覚型ロボットの姿勢と関節角度推定
- Authors: Raktim Gautam Goswami, Prashanth Krishnamurthy, Yann LeCun, Farshad Khorrami,
- Abstract要約: 関節角度の不明な関節ロボットの視覚に基づくポーズ推定は、協調ロボット工学や人間とロボットのインタラクションタスクに応用できる。
現在のフレームワークでは、ニューラルネットワークエンコーダを使用して、画像の特徴と下流層を抽出し、関節角とロボットのポーズを予測する。
本稿では,ロボットの物理モデルに関する情報を,マスクを用いた自己教師型埋め込み予測アーキテクチャを用いてエンコーダに融合させる手法であるRoboPEPPを紹介する。
- 参考スコア(独自算出の注目度): 27.63332596592781
- License:
- Abstract: Vision-based pose estimation of articulated robots with unknown joint angles has applications in collaborative robotics and human-robot interaction tasks. Current frameworks use neural network encoders to extract image features and downstream layers to predict joint angles and robot pose. While images of robots inherently contain rich information about the robot's physical structures, existing methods often fail to leverage it fully; therefore, limiting performance under occlusions and truncations. To address this, we introduce RoboPEPP, a method that fuses information about the robot's physical model into the encoder using a masking-based self-supervised embedding-predictive architecture. Specifically, we mask the robot's joints and pre-train an encoder-predictor model to infer the joints' embeddings from surrounding unmasked regions, enhancing the encoder's understanding of the robot's physical model. The pre-trained encoder-predictor pair, along with joint angle and keypoint prediction networks, is then fine-tuned for pose and joint angle estimation. Random masking of input during fine-tuning and keypoint filtering during evaluation further improves robustness. Our method, evaluated on several datasets, achieves the best results in robot pose and joint angle estimation while being the least sensitive to occlusions and requiring the lowest execution time.
- Abstract(参考訳): 関節角度の不明な関節ロボットの視覚に基づくポーズ推定は、協調ロボット工学や人間とロボットのインタラクションタスクに応用できる。
現在のフレームワークでは、ニューラルネットワークエンコーダを使用して、画像の特徴と下流層を抽出し、関節角とロボットのポーズを予測する。
ロボットのイメージは本質的にはロボットの物理的構造に関する豊富な情報を含んでいるが、既存の手法では十分に活用できないことが多い。
この問題を解決するために,マスクを用いた自己教師型埋め込み予測アーキテクチャを用いて,ロボットの物理モデルに関する情報をエンコーダに融合させる手法であるRoboPEPPを導入する。
具体的には、ロボットの関節を隠蔽し、エンコーダ予測モデルを事前訓練し、周囲の無人領域から関節の埋め込みを推定し、エンコーダのロボットの物理的モデルに対する理解を高める。
事前訓練されたエンコーダと予測器ペアは、関節角とキーポイント予測ネットワークと共に、ポーズと関節角の推定のために微調整される。
微調整時の入力のランダムマスキングと評価中のキーポイントフィルタリングにより、ロバスト性はさらに向上する。
提案手法は,複数のデータセットで評価され,オクルージョンに最も敏感であり,実行時間も最低でありながら,ロボットのポーズと関節角度推定の最良の結果が得られる。
関連論文リスト
- CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera [18.971816395021488]
マーカーレスポーズ推定手法は、カメラとロボットのキャリブレーションに時間を要する物理的な設定を不要にしている。
部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T16:22:43Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Real-time Holistic Robot Pose Estimation with Unknown States [30.41806081818826]
RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。
従来の手法では、例えば接地型ロボットの関節角など、ロボットの内部状態の完全な知識が想定されていた。
本研究は,RGB画像からリアルタイムロボットのポーズ推定を行う上で,既知のロボットの状態を必要としない効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-08T13:12:50Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Markerless Camera-to-Robot Pose Estimation via Self-supervised
Sim-to-Real Transfer [26.21320177775571]
本稿では,オンラインカメラ・ロボット・キャリブレーションと自己監督型トレーニング手法を備えたエンドツーエンドのポーズ推定フレームワークを提案する。
我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。
論文 参考訳(メタデータ) (2023-02-28T05:55:42Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。
これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文 参考訳(メタデータ) (2021-04-19T14:48:29Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。