Fugu-MT 論文翻訳(概要): Latent Representations for Visual Proprioception in Inexpensive Robots

論文の概要: Latent Representations for Visual Proprioception in Inexpensive Robots

arxiv url: http://arxiv.org/abs/2504.14634v2
Date: Thu, 24 Apr 2025 12:36:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:52.712029
Title: Latent Representations for Visual Proprioception in Inexpensive Robots
Title（参考訳）: 運動ロボットにおける視覚的先入観の潜在表現
Authors: Sahara Sheikholeslami, Ladislau Bölöni,
Abstract要約: 高速かつシングルパスレグレッションアーキテクチャは、単一の外部カメライメージから視覚的受容をどの程度実行できますか? 我々は, CNN, VAE, ViT, および未校正フィジュアルマーカーの袋などの潜伏表現を, 利用可能な限られたデータに適応した微調整技術を用いて探索する。安価な6-DoFロボットを用いた実験により達成可能な精度を評価する。
参考スコア（独自算出の注目度）: 7.0579376123869935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robotic manipulation requires explicit or implicit knowledge of the robot's joint positions. Precise proprioception is standard in high-quality industrial robots but is often unavailable in inexpensive robots operating in unstructured environments. In this paper, we ask: to what extent can a fast, single-pass regression architecture perform visual proprioception from a single external camera image, available even in the simplest manipulation settings? We explore several latent representations, including CNNs, VAEs, ViTs, and bags of uncalibrated fiducial markers, using fine-tuning techniques adapted to the limited data available. We evaluate the achievable accuracy through experiments on an inexpensive 6-DoF robot.
Abstract（参考訳）: ロボット操作は、ロボットの関節の位置について明示的または暗黙的な知識を必要とする。精密な受容は高品質な産業用ロボットでは標準的なものであるが、非構造環境で動作する安価なロボットでは利用できないことが多い。本稿では,高速かつシングルパスレグレッションアーキテクチャが単一外部カメラ画像からの視覚的受容を,最も簡単な操作設定でもどの程度達成できるかを問う。我々は, CNN, VAE, ViT, および未校正フィジュアルマーカーの袋などの潜伏表現を, 利用可能な限られたデータに適応した微調整技術を用いて探索する。安価な6-DoFロボットを用いた実験により達成可能な精度を評価する。

関連論文リスト

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-28T07:51:02Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Generalized Robot Learning Framework [10.03174544844559]
本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。我々は,産業用ロボットにおいても,デプロイ可能な模倣学習をうまく適用できることを実証した。
論文参考訳（メタデータ） (2024-09-18T15:34:31Z)
CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera [18.971816395021488]
マーカーレスポーズ推定手法は、カメラとロボットのキャリブレーションに時間を要する物理的な設定を不要にしている。部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-16T16:22:43Z)
Unifying 3D Representation and Control of Diverse Robots with a Single Camera [48.279199537720714]
我々は,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文参考訳（メタデータ） (2024-07-11T17:55:49Z)
Real-time Holistic Robot Pose Estimation with Unknown States [30.41806081818826]
RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。従来の手法では、例えば接地型ロボットの関節角など、ロボットの内部状態の完全な知識が想定されていた。本研究は,RGB画像からリアルタイムロボットのポーズ推定を行う上で,既知のロボットの状態を必要としない効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-08T13:12:50Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Distributional Instance Segmentation: Modeling Uncertainty and High Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2023-05-03T05:57:29Z)
Image-based Pose Estimation and Shape Reconstruction for Robot Manipulators and Soft, Continuum Robots via Differentiable Rendering [20.62295718847247]
自律システムは3D世界における動きを捉えローカライズするためにセンサーに依存しているため、計測データからの状態推定はロボットアプリケーションにとって極めて重要である。本研究では,カメラ画像から画像に基づくロボットのポーズ推定と形状再構成を実現する。柔らかい連続ロボットの形状再構成において,幾何学的形状プリミティブを用いる手法が高精度であり,ロボットマニピュレータの姿勢推定が可能であることを実証した。
論文参考訳（メタデータ） (2023-02-27T18:51:29Z)
Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文参考訳（メタデータ） (2021-04-19T14:48:29Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。