Fugu-MT 論文翻訳(概要): Real-time Holistic Robot Pose Estimation with Unknown States

論文の概要: Real-time Holistic Robot Pose Estimation with Unknown States

arxiv url: http://arxiv.org/abs/2402.05655v1
Date: Thu, 8 Feb 2024 13:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 15:05:41.349777
Title: Real-time Holistic Robot Pose Estimation with Unknown States
Title（参考訳）: 未知状態を用いた実時間ホロスティックロボットの姿勢推定
Authors: Shikun Ban, Juling Fan, Wentao Zhu, Xiaoxuan Ma, Yu Qiao, Yizhou Wang
Abstract要約: RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。本稿では,1枚のRGB画像から実時間で総合的なポーズ推定を行うためのエンドツーエンドパイプラインを提案する。本手法は,ロボットの状態パラメータ,キーポイント位置,ルート深さなど,カメラとロボットの回転を推定する。
参考スコア（独自算出の注目度）: 32.23145849683204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating robot pose from RGB images is a crucial problem in computer vision and robotics. While previous methods have achieved promising performance, most of them presume full knowledge of robot internal states, e.g. ground-truth robot joint angles, which are not always available in real-world scenarios. On the other hand, existing approaches that estimate robot pose without joint state priors suffer from heavy computation burdens and thus cannot support real-time applications. This work addresses the urgent need for efficient robot pose estimation with unknown states. We propose an end-to-end pipeline for real-time, holistic robot pose estimation from a single RGB image, even in the absence of known robot states. Our method decomposes the problem into estimating camera-to-robot rotation, robot state parameters, keypoint locations, and root depth. We further design a corresponding neural network module for each task. This approach allows for learning multi-facet representations and facilitates sim-to-real transfer through self-supervised learning. Notably, our method achieves inference with a single feedforward, eliminating the need for costly test-time iterative optimization. As a result, it delivers a 12-time speed boost with state-of-the-art accuracy, enabling real-time holistic robot pose estimation for the first time. Code is available at https://oliverbansk.github.io/Holistic-Robot-Pose/.
Abstract（参考訳）: RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。従来の手法は有望な性能を実現したが、そのほとんどはロボットの内部状態に関する完全な知識、例えば、実世界のシナリオで常に利用できるとは限らない地対地ロボットの関節角を想定している。一方,協調状態に先立つことなくロボットのポーズを推定する既存のアプローチは計算負荷が重いため,リアルタイムアプリケーションではサポートできない。この研究は、未知の状態で効率的なロボットポーズ推定の必要性に対処する。本稿では,ロボット状態が未知である場合でも,単一のrgb画像からリアルタイム,全体的ロボットポーズ推定のためのエンドツーエンドパイプラインを提案する。本手法では, カメラからロボットへの回転, ロボットの状態パラメータ, キーポイント位置, ルート深度を推定する。さらに,タスク毎に対応するニューラルネットワークモジュールを設計する。このアプローチは多面的表現の学習を可能にし、自己教師付き学習を通じてシミュレートから現実への伝達を促進する。特に,単一のフィードフォワードで推論が可能であり,コストのかかるテスト時間反復最適化は不要である。その結果、最先端の精度で12倍のスピードアップを実現し、初めてリアルタイムの総合的なロボットポーズ推定を可能にした。コードはhttps://oliverbansk.github.io/Holistic-Robot-Pose/で公開されている。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training [27.63332596592781]
関節角度の不明な関節ロボットの視覚に基づくポーズ推定は、協調ロボット工学や人間とロボットのインタラクションタスクに応用できる。現在のフレームワークでは、ニューラルネットワークエンコーダを使用して、画像の特徴と下流層を抽出し、関節角とロボットのポーズを予測する。本稿では,ロボットの物理モデルに関する情報を,マスクを用いた自己教師型埋め込み予測アーキテクチャを用いてエンコーダに融合させる手法であるRoboPEPPを紹介する。
論文参考訳（メタデータ） (2024-11-26T18:26:17Z)
CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera [18.971816395021488]
マーカーレスポーズ推定手法は、カメラとロボットのキャリブレーションに時間を要する物理的な設定を不要にしている。部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-16T16:22:43Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
What Matters to You? Towards Visual Representation Alignment for Robot Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文参考訳（メタデータ） (2023-10-11T23:04:07Z)
ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space [9.806227900768926]
本稿では,ロボットの動きに対する新しいディープラーニング手法を提案する。本手法では,新しいロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。我々のモデルは、効率と精度の観点から、人間とロボットの類似性に関する既存の研究よりも優れています。
論文参考訳（メタデータ） (2023-09-11T08:55:04Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Image-based Pose Estimation and Shape Reconstruction for Robot Manipulators and Soft, Continuum Robots via Differentiable Rendering [20.62295718847247]
自律システムは3D世界における動きを捉えローカライズするためにセンサーに依存しているため、計測データからの状態推定はロボットアプリケーションにとって極めて重要である。本研究では,カメラ画像から画像に基づくロボットのポーズ推定と形状再構成を実現する。柔らかい連続ロボットの形状再構成において,幾何学的形状プリミティブを用いる手法が高精度であり,ロボットマニピュレータの姿勢推定が可能であることを実証した。
論文参考訳（メタデータ） (2023-02-27T18:51:29Z)
Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文参考訳（メタデータ） (2021-04-19T14:48:29Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。