論文の概要: Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras
- arxiv url: http://arxiv.org/abs/2002.09107v2
- Date: Wed, 31 Mar 2021 18:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:21:47.191480
- Title: Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras
- Title(参考訳): 複数の非校正カメラによる高精度3次元マニピュレーションの学習
- Authors: Iretiayo Akinola, Jacob Varley and Dmitry Kalashnikov
- Abstract要約: 本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
- 参考スコア(独自算出の注目度): 13.24490469380487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an effective multi-view approach to closed-loop
end-to-end learning of precise manipulation tasks that are 3D in nature. Our
method learns to accomplish these tasks using multiple statically placed but
uncalibrated RGB camera views without building an explicit 3D representation
such as a pointcloud or voxel grid. This multi-camera approach achieves
superior task performance on difficult stacking and insertion tasks compared to
single-view baselines. Single view robotic agents struggle from occlusion and
challenges in estimating relative poses between points of interest. While full
3D scene representations (voxels or pointclouds) are obtainable from registered
output of multiple depth sensors, several challenges complicate operating off
such explicit 3D representations. These challenges include imperfect camera
calibration, poor depth maps due to object properties such as reflective
surfaces, and slower inference speeds over 3D representations compared to 2D
images. Our use of static but uncalibrated cameras does not require
camera-robot or camera-camera calibration making the proposed approach easy to
setup and our use of \textit{sensor dropout} during training makes it resilient
to the loss of camera-views after deployment.
- Abstract(参考訳): 本研究では,3次元的な精密な操作タスクのループ終端学習に有効なマルチビュー手法を提案する。
この方法は、pointcloudやvoxel gridのような明示的な3d表現を構築することなく、複数の静的配置のrgbカメラビューを用いてこれらのタスクを実現できる。
このマルチカメラアプローチは、シングルビューベースラインと比較して、難しい積み重ねおよび挿入タスクにおいて優れたタスク性能を実現する。
単一視点ロボットエージェントは、関心点間の相対的なポーズを推定する上で、隠蔽と挑戦に苦しむ。
複数の深度センサの登録出力から完全な3dシーン表現(voxelsやpointclouds)が得られるが、これらの明示的な3d表現の操作にはいくつかの課題がある。
これらの課題には、不完全なカメラキャリブレーション、反射面などの物体の性質による深度マップの不足、2次元画像と比較して3次元表現よりも遅い推論速度が含まれる。
静的だがキャリブレーションされていないカメラは、カメラロボットやカメラカメラのキャリブレーションを必要としないため、提案されたアプローチのセットアップが簡単で、トレーニング中に \textit{sensor dropout}を使用すると、デプロイ後のカメラビューの損失に耐性があります。
関連論文リスト
- SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Multi-Person 3D Pose Estimation from Multi-View Uncalibrated Depth
Cameras [36.59439020480503]
我々は、限られた数の非校正深度カメラから、多視点多人数3D人物ポーズ推定の課題に取り組む。
本稿では,3次元ポーズ推定のためのRGBDビデオストリームを提供する,疎遠で校正されていない深度カメラを活用することを提案する。
論文 参考訳(メタデータ) (2024-01-28T10:06:17Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Learning to Predict 3D Lane Shape and Camera Pose from a Single Image
via Geometry Constraints [25.7441545608721]
2段階の枠組みで1枚の画像からカメラのポーズを推定することで3次元レーンを予測することを提案する。
第1段階は、視点画像からカメラのポーズタスクを目標とする。
第2段階は3次元車線課題を対象としており、推定されたポーズを用いて、距離不変の車線外観を含むトップビュー画像を生成する。
論文 参考訳(メタデータ) (2021-12-31T08:59:27Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。