論文の概要: DeepRM: Deep Recurrent Matching for 6D Pose Refinement
- arxiv url: http://arxiv.org/abs/2205.14474v1
- Date: Sat, 28 May 2022 16:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:08:12.726769
- Title: DeepRM: Deep Recurrent Matching for 6D Pose Refinement
- Title(参考訳): DeepRM:6Dポッドリファインメントのためのディープリカレントマッチング
- Authors: Alexander Avery, Andreas Savakis
- Abstract要約: DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
DeepRMはエンドツーエンドでトレーニングされており、スケーラブルなバックボーンを使用している。
以上の結果から,DeepRMは,広く受け入れられている2つの課題データセットに対して,最先端のパフォーマンスを実現することができた。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise 6D pose estimation of rigid objects from RGB images is a critical but
challenging task in robotics and augmented reality. To address this problem, we
propose DeepRM, a novel recurrent network architecture for 6D pose refinement.
DeepRM leverages initial coarse pose estimates to render synthetic images of
target objects. The rendered images are then matched with the observed images
to predict a rigid transform for updating the previous pose estimate. This
process is repeated to incrementally refine the estimate at each iteration.
LSTM units are used to propagate information through each refinement step,
significantly improving overall performance. In contrast to many 2-stage
Perspective-n-Point based solutions, DeepRM is trained end-to-end, and uses a
scalable backbone that can be tuned via a single parameter for accuracy and
efficiency. During training, a multi-scale optical flow head is added to
predict the optical flow between the observed and synthetic images. Optical
flow prediction stabilizes the training process, and enforces the learning of
features that are relevant to the task of pose estimation. Our results
demonstrate that DeepRM achieves state-of-the-art performance on two widely
accepted challenging datasets.
- Abstract(参考訳): RGB画像からの剛体物体の高精度な6Dポーズ推定は、ロボティクスや拡張現実において重要な課題である。
この問題に対処するため,我々は6次元ポーズリファインメントのための新しいリカレントネットワークアーキテクチャであるdeeprmを提案する。
DeepRMは、初期粗いポーズ推定を利用して、ターゲットオブジェクトの合成画像をレンダリングする。
レンダリングされた画像は観測された画像と一致し、以前のポーズ推定を更新するための剛性変換を予測する。
このプロセスは繰り返して、各イテレーションで見積もりを漸進的に洗練します。
LSTMユニットは、各改良工程を通じて情報を伝達するために使用され、全体的な性能が大幅に向上する。
多くの2段階のパースペクティブnポイントベースのソリューションとは対照的に、deeprmはエンドツーエンドでトレーニングされ、精度と効率のために単一のパラメータでチューニング可能なスケーラブルなバックボーンを使用する。
トレーニング中に、観察された画像と合成画像の間の光の流れを予測するために、マルチスケールの光フローヘッドが追加される。
光フロー予測はトレーニングプロセスを安定化させ、ポーズ推定のタスクに関連する特徴の学習を強制する。
その結果、deeprmは広く受け入れられている2つの挑戦的データセットで最先端のパフォーマンスを達成できた。
関連論文リスト
- Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior [3.2120448116996103]
本論文は,フレーム内事前情報を用いた深層学習深度推定のための最初のセルフスーパービジョンを提案する。
第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。
SmoothL1と新しい光度適応型SSIMを組み合わせた光度再投影誤差を定式化し、ポーズと深さの推定を最適化する。
論文 参考訳(メタデータ) (2024-04-10T17:25:42Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - TransPose: A Transformer-based 6D Object Pose Estimation Network with
Depth Refinement [5.482532589225552]
深度修正モジュールを用いた改良型トランスフォーマーベースの6次元ポーズ推定法であるTransPoseを提案する。
アーキテクチャはRGB画像のみを入力として取り込むが、深度や熱画像などの追加の補正は行わない。
次に、予測された中心、6Dポーズ、および6Dポーズの精度を向上するために、新しい深度補正モジュールが使用される。
論文 参考訳(メタデータ) (2023-07-09T17:33:13Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Near-filed SAR Image Restoration with Deep Learning Inverse Technique: A
Preliminary Study [5.489791364472879]
近接場合成開口レーダ(SAR)は、ターゲットの散乱分布ホットスポットの高解像度画像を提供する。
一方、撮像の結果は、サイドローブ、クラッタ、ノイズから必然的に劣化する。
イメージを復元するために、現在の手法では、例えば、点拡散関数(PSF)は空間的に一貫したものであり、ターゲットはスパース点散乱器などで構成されている。
我々は、分解モデルを空間的に可変な複素畳み込みモデルに再構成し、近接場SARのシステム応答を考慮した。
モデルに基づくディープラーニングネットワークは、復元するために設計されている
論文 参考訳(メタデータ) (2022-11-28T01:28:33Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。