論文の概要: TransPoser: Transformer as an Optimizer for Joint Object Shape and Pose
Estimation
- arxiv url: http://arxiv.org/abs/2303.13477v1
- Date: Thu, 23 Mar 2023 17:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:03:28.639208
- Title: TransPoser: Transformer as an Optimizer for Joint Object Shape and Pose
Estimation
- Title(参考訳): TransPoser: ジョイントオブジェクト形状とポース推定のための最適化器
- Authors: Yuta Yoshitake, Mai Nishimura, Shohei Nobuhara, Ko Nishino
- Abstract要約: 連続観察されたRGB-D画像から剛体物体の形状と姿勢の結合推定法を提案する。
本稿では、カメラの視点と視線方向が与えられた物体の深度画像を直接出力するニューラルネットワークであるDeep Directional Distance Function(DeepDDF)を紹介する。
結合推定自体をTransPoserと呼ぶTransformerとして定式化する。
- 参考スコア(独自算出の注目度): 25.395619346823715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method for joint estimation of shape and pose of rigid
objects from their sequentially observed RGB-D images. In sharp contrast to
past approaches that rely on complex non-linear optimization, we propose to
formulate it as a neural optimization that learns to efficiently estimate the
shape and pose. We introduce Deep Directional Distance Function (DeepDDF), a
neural network that directly outputs the depth image of an object given the
camera viewpoint and viewing direction, for efficient error computation in 2D
image space. We formulate the joint estimation itself as a Transformer which we
refer to as TransPoser. We fully leverage the tokenization and multi-head
attention to sequentially process the growing set of observations and to
efficiently update the shape and pose with a learned momentum, respectively.
Experimental results on synthetic and real data show that DeepDDF achieves high
accuracy as a category-level object shape representation and TransPoser
achieves state-of-the-art accuracy efficiently for joint shape and pose
estimation.
- Abstract(参考訳): 連続観察されたRGB-D画像から剛体物体の形状と姿勢の結合推定法を提案する。
複雑な非線形最適化に依存する過去のアプローチとは対照的に、形状とポーズを効率的に推定するニューラルネットワーク最適化として定式化することを提案する。
本稿では,2次元画像空間における効率的な誤差計算を行うために,カメラ視点と視野方向が与えられた物体の深度画像を直接出力するニューラルネットワークDeep Directional Distance Function(DeepDDF)を紹介する。
結合推定自体をTransPoserと呼ぶTransformerとして定式化する。
トークン化と多面的注意を最大限に活用し,成長する観測群を順次処理し,学習した運動量で形状とポーズを効率的に更新する。
合成および実データによる実験結果から,DeepDDFはカテゴリレベルのオブジェクト形状表現として高い精度を達成し,TransPoserは関節形状とポーズ推定を効率的に行うことを示す。
関連論文リスト
- RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。