論文の概要: Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation
- arxiv url: http://arxiv.org/abs/2012.11002v1
- Date: Sun, 20 Dec 2020 19:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:40:35.904058
- Title: Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation
- Title(参考訳): deep bingham networks: ポーズ推定における不確実性とあいまいさを扱う
- Authors: Haowen Deng, Mai Bui, Nassir Navab, Leonidas Guibas, Slobodan Ilic,
Tolga Birdal
- Abstract要約: Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 74.76155168705975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Deep Bingham Networks (DBN), a generic framework
that can naturally handle pose-related uncertainties and ambiguities arising in
almost all real life applications concerning 3D data. While existing works
strive to find a single solution to the pose estimation problem, we make peace
with the ambiguities causing high uncertainty around which solutions to
identify as the best. Instead, we report a family of poses which capture the
nature of the solution space. DBN extends the state of the art direct pose
regression networks by (i) a multi-hypotheses prediction head which can yield
different distribution modes; and (ii) novel loss functions that benefit from
Bingham distributions on rotations. This way, DBN can work both in unambiguous
cases providing uncertainty information, and in ambiguous scenes where an
uncertainty per mode is desired. On a technical front, our network regresses
continuous Bingham mixture models and is applicable to both 2D data such as
images and to 3D data such as point clouds. We proposed new training strategies
so as to avoid mode or posterior collapse during training and to improve
numerical stability. Our methods are thoroughly tested on two different
applications exploiting two different modalities: (i) 6D camera relocalization
from images; and (ii) object pose estimation from 3D point clouds,
demonstrating decent advantages over the state of the art. For the former we
contributed our own dataset composed of five indoor scenes where it is
unavoidable to capture images corresponding to views that are hard to uniquely
identify. For the latter we achieve the top results especially for symmetric
objects of ModelNet dataset.
- Abstract(参考訳): 本研究では,3Dデータに関するほぼすべての実生活アプリケーションにおいて,ポーズ関連の不確実性や曖昧性を自然に処理できる汎用フレームワークであるDeep Bingham Networks(DBN)を紹介する。
既存の研究はポーズ推定問題に対する単一の解を見つけようとしているが、どの解が最良の解であるかという不確実性を引き起こす曖昧さと和らげる。
代わりに、解空間の性質を捉える一連のポーズを報告します。
DBNは, (i) 異なる分布モードを生成可能な多仮説予測ヘッド, (ii) 回転におけるビンガム分布の恩恵を受ける新しい損失関数により, 直接ポーズ回帰ネットワークの状態を拡張する。
このように、dbnは不確実性情報を提供する曖昧なケースと、モードごとの不確実性が要求される曖昧なシーンの両方で動作する。
技術面では,連続したビンガム混合モデルをレグレッシブし,画像などの2次元データとポイントクラウドなどの3次元データの両方に適用する。
我々は,訓練中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案した。
i)画像からの6dカメラ再局在化,および(ii)3dポイントクラウドからのオブジェクトポーズ推定の2つの異なるアプリケーションに対して徹底的にテストを行い,その技術に対する適度な優位性を示した。
前者については、一意に識別できないビューに対応するイメージをキャプチャできない5つの屋内シーンからなる独自のデータセットを寄贈しました。
後者については、特にModelNetデータセットの対称オブジェクトの上位結果を得る。
関連論文リスト
- ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Ambiguity-Aware Multi-Object Pose Optimization for Visually-Assisted
Robot Manipulation [17.440729138126162]
あいまいさを意識した6Dオブジェクトポーズ推定ネットワークPrimA6D++を汎用的不確実性予測手法として提案する。
提案手法は,T-LESS と YCB-Video のデータセットの性能向上を示す。
さらに,視覚支援ロボット操作のためのリアルタイムシーン認識機能を示す。
論文 参考訳(メタデータ) (2022-11-02T08:57:20Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。