論文の概要: Unifying Scene Representation and Hand-Eye Calibration with 3D Foundation Models
- arxiv url: http://arxiv.org/abs/2404.11683v1
- Date: Wed, 17 Apr 2024 18:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:10:25.522530
- Title: Unifying Scene Representation and Hand-Eye Calibration with 3D Foundation Models
- Title(参考訳): 3次元基礎モデルによるシーン表現と手作業の校正
- Authors: Weiming Zhi, Haozhan Tang, Tianyi Zhang, Matthew Johnson-Roberson,
- Abstract要約: 環境の表現はロボティクスにおける中心的な課題である。
伝統的に、ユーザーはチェッカーボードやエイプリルタグなどの特定の外部マーカーを使用してカメラを校正する必要がある。
本稿では,マニピュレータ搭載RGBカメラを搭載したロボットシステムへの3Dファウンデーション表現の統合を提唱する。
- 参考スコア(独自算出の注目度): 13.58353565350936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing the environment is a central challenge in robotics, and is essential for effective decision-making. Traditionally, before capturing images with a manipulator-mounted camera, users need to calibrate the camera using a specific external marker, such as a checkerboard or AprilTag. However, recent advances in computer vision have led to the development of \emph{3D foundation models}. These are large, pre-trained neural networks that can establish fast and accurate multi-view correspondences with very few images, even in the absence of rich visual features. This paper advocates for the integration of 3D foundation models into scene representation approaches for robotic systems equipped with manipulator-mounted RGB cameras. Specifically, we propose the Joint Calibration and Representation (JCR) method. JCR uses RGB images, captured by a manipulator-mounted camera, to simultaneously construct an environmental representation and calibrate the camera relative to the robot's end-effector, in the absence of specific calibration markers. The resulting 3D environment representation is aligned with the robot's coordinate frame and maintains physically accurate scales. We demonstrate that JCR can build effective scene representations using a low-cost RGB camera attached to a manipulator, without prior calibration.
- Abstract(参考訳): 環境の表現はロボット工学における中心的な課題であり、効果的な意思決定には不可欠である。
伝統的に、マニピュレータ搭載カメラで画像を撮影する前に、ユーザーはチェッカーボードやエイプリルタグなどの特定の外部マーカーを使ってカメラを校正する必要がある。
しかし、近年のコンピュータビジョンの進歩は、emph{3D foundation model}の開発につながっている。
これらは大規模でトレーニング済みのニューラルネットワークで、リッチな視覚的特徴がなくても、非常に少ない画像で高速で正確なマルチビュー対応を確立することができる。
本稿では,マニピュレータ搭載RGBカメラを搭載したロボットシステムにおける3次元基礎モデルのシーン表現アプローチへの統合を提唱する。
具体的には,JCR(Joint Calibration and Representation)法を提案する。
JCRは、マニピュレータ搭載カメラによって撮影されたRGB画像を使用して、環境表現を同時に構築し、特定のキャリブレーションマーカーがない場合に、ロボットのエンドエフェクターに対してカメラを校正する。
結果の3D環境表現は、ロボットの座標フレームと一致し、物理的に正確なスケールを維持する。
我々は,JCRが,マニピュレータに装着した低コストのRGBカメラを用いて,事前のキャリブレーションを伴わずに,効果的なシーン表現を構築できることを実証した。
関連論文リスト
- Neural Real-Time Recalibration for Infrared Multi-Camera Systems [2.249916681499244]
赤外線マルチカメラシステムのリアルタイム再校正には、学習のない、あるいはニューラルネットワーク技術は存在しない。
動的リアルタイムキャリブレーションが可能なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T14:37:37Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - RegHEC: Hand-Eye Calibration via Simultaneous Multi-view Point Clouds
Registration of Arbitrary Object [1.7161586414363612]
RegHECは、正確な校正リグを必要としない登録ベースの手目校正技術である。
任意のシーンの複数視点の雲を共通の参照フレームの下で同時登録する手目関係を見つけようとする。
論文 参考訳(メタデータ) (2023-04-27T11:08:35Z) - Markerless Camera-to-Robot Pose Estimation via Self-supervised
Sim-to-Real Transfer [26.21320177775571]
本稿では,オンラインカメラ・ロボット・キャリブレーションと自己監督型トレーニング手法を備えたエンドツーエンドのポーズ推定フレームワークを提案する。
我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。
論文 参考訳(メタデータ) (2023-02-28T05:55:42Z) - RGB-Only Reconstruction of Tabletop Scenes for Collision-Free
Manipulator Control [71.51781695764872]
世界のRGBビューのみを用いたロボットマニピュレータの無衝突制御システムを提案する。
テーブルトップシーンの知覚入力は、ロボットエンドエフェクタにハンドヘルドまたは装着されたRGBカメラの複数の画像によって提供される。
シーンの3次元形状を再構成するために、NeRFのようなプロセスが使用され、そこからユークリッド完全符号距離関数(ESDF)が計算される。
次に、モデル予測制御アルゴリズムを用いてマニピュレータを制御し、ESDFの障害物を避けながら所望のポーズに達する。
論文 参考訳(メタデータ) (2022-10-21T01:45:08Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Robot Self-Calibration Using Actuated 3D Sensors [0.0]
本稿では,ロボットのキャリブレーションをオフラインのSLAM問題として扱う。
これにより、任意の眼深度センサのみを用いてロボットのキャリブレーションを行うことができる。
各種の3Dセンサーを装着した実ロボットに対して,システムの詳細評価を行った。
論文 参考訳(メタデータ) (2022-06-07T16:35:08Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Real-time RGBD-based Extended Body Pose Estimation [57.61868412206493]
3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。
パラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を表現として使用する。
身体のポーズと表情パラメータの推定子を訓練する。
論文 参考訳(メタデータ) (2021-03-05T13:37:50Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。