論文の概要: KineDepth: Utilizing Robot Kinematics for Online Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2409.19490v1
- Date: Sun, 29 Sep 2024 00:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:36.010529
- Title: KineDepth: Utilizing Robot Kinematics for Online Metric Depth Estimation
- Title(参考訳): KineDepth:オンラインメトリクス深さ推定にロボットキネマティクスを活用する
- Authors: Soofiyan Atar, Yuheng Zhi, Florian Richter, Michael Yip,
- Abstract要約: 本研究では,タスクの実行時に,相対深度推定値をリアルタイムに計量深度に変換する手法を提案する。
提案手法では,LSTMをベースとしたメートル法深度回帰器を用いて,確率的フィルタリングによりオンラインにトレーニングし,洗練する。
実ロボットを用いた実験により,本手法は現状のモノクロ距離推定技術よりはるかに優れていることが示された。
- 参考スコア(独自算出の注目度): 9.527936555265368
- License:
- Abstract: Depth perception is essential for a robot's spatial and geometric understanding of its environment, with many tasks traditionally relying on hardware-based depth sensors like RGB-D or stereo cameras. However, these sensors face practical limitations, including issues with transparent and reflective objects, high costs, calibration complexity, spatial and energy constraints, and increased failure rates in compound systems. While monocular depth estimation methods offer a cost-effective and simpler alternative, their adoption in robotics is limited due to their output of relative rather than metric depth, which is crucial for robotics applications. In this paper, we propose a method that utilizes a single calibrated camera, enabling the robot to act as a ``measuring stick" to convert relative depth estimates into metric depth in real-time as tasks are performed. Our approach employs an LSTM-based metric depth regressor, trained online and refined through probabilistic filtering, to accurately restore the metric depth across the monocular depth map, particularly in areas proximal to the robot's motion. Experiments with real robots demonstrate that our method significantly outperforms current state-of-the-art monocular metric depth estimation techniques, achieving a 22.1% reduction in depth error and a 52% increase in success rate for a downstream task.
- Abstract(参考訳): 深度知覚はロボットの環境の空間的および幾何学的理解に不可欠であり、多くのタスクは伝統的にRGB-Dやステレオカメラのようなハードウェアベースの深度センサーに依存している。
しかし、これらのセンサーは、透明で反射的な物体の問題、高いコスト、キャリブレーションの複雑さ、空間的およびエネルギー的制約、複合システムにおける故障率の増加など、実用的な制限に直面している。
単分子深度推定法はコスト効率が高く、より単純な代替手段を提供するが、ロボット工学におけるそれらの採用は、計量深度よりも相対的な出力によって制限されている。
本稿では,1台のキャリブレーションカメラを用いて,ロボットが「測定スティック」として動作し,タスクの実行時に相対深度推定をリアルタイムに計量深度に変換する手法を提案する。
提案手法はLSTMをベースとしたメートル法深度回帰器を用いて,特にロボットの動きに近縁な領域において,単眼深度マップ上でのメートル法深度を正確に復元する。
実際のロボットを用いた実験により,本手法は現状のモノクロ距離推定手法よりも優れており,22.1%の深さ誤差の低減,52%のダウンストリームタスクの成功率向上を実現している。
関連論文リスト
- Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - EasyHeC: Accurate and Automatic Hand-eye Calibration via Differentiable
Rendering and Space Exploration [49.90228618894857]
我々は、マーカーレスでホワイトボックスであり、より優れた精度とロバスト性を提供するEasyHeCと呼ばれる手眼校正の新しいアプローチを導入する。
我々は,2つの重要な技術 – レンダリングベースのカメラポーズの最適化と整合性に基づく共同空間探索 – を利用することを提案する。
本評価は,合成および実世界のデータセットにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-02T03:49:54Z) - Deep learning-based approaches for human motion decoding in smart
walkers for rehabilitation [3.8791511769387634]
スマートウォーカーは、できるだけ早く人間の動きとニーズをデコードできなければならない。
現在の歩行者はウェアラブルや組込みセンサーの情報を用いて動きの意図を復号する。
早期の動作認識・検出問題として人間の動作復号化に対処する非接触アプローチを提案する。
論文 参考訳(メタデータ) (2023-01-13T14:29:44Z) - A Distance-Geometric Method for Recovering Robot Joint Angles From an
RGB Image [7.971699294672282]
本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する手法を提案する。
提案手法は,構成空間の距離幾何学的表現に基づいて,ロボットの運動モデルに関する知識を活用する。
論文 参考訳(メタデータ) (2023-01-05T12:57:45Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - Depth by Poking: Learning to Estimate Depth from Self-Supervised
Grasping [6.382990675677317]
我々は、RGB-D画像から深度を推定するためにニューラルネットワークモデルを訓練する。
我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。
本手法は従来の構造光センサよりも根平均二乗誤差が有意に低いことを示す。
論文 参考訳(メタデータ) (2020-06-16T03:34:26Z) - PRGFlow: Benchmarking SWAP-Aware Unified Deep Visual Inertial Odometry [14.077054191270213]
視覚的翻訳推定のための深層学習手法を提案し、6DoF odometry 推定のための慣性センサでゆるやかに融合する。
我々は,MSCOCOデータセット上でネットワークを評価し,複数の実飛行軌道上でのVI融合を評価する。
論文 参考訳(メタデータ) (2020-06-11T19:12:54Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z) - Real-Time Object Detection and Recognition on Low-Compute Humanoid
Robots using Deep Learning [0.12599533416395764]
本稿では、複数の低計算NAOロボットがカメラビューにおける物体のリアルタイム検出、認識、位置決めを行うことを可能にする新しいアーキテクチャについて述べる。
オブジェクト検出と局所化のためのアルゴリズムは,複数のシナリオにおける屋内実験に基づくYOLOv3の実証的な修正である。
このアーキテクチャは、カメラフィードからニューラルネットにリアルタイムフレームを供給し、その結果を使ってロボットを誘導する効果的なエンドツーエンドパイプラインも備えている。
論文 参考訳(メタデータ) (2020-01-20T05:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。