論文の概要: 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction
- arxiv url: http://arxiv.org/abs/2411.00543v2
- Date: Mon, 04 Nov 2024 10:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:48.670282
- Title: 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction
- Title(参考訳): 直接ウィグナー-D高調波予測による3次元同変姿勢回帰
- Authors: Jongmin Lee, Minsu Cho,
- Abstract要約: 既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
- 参考スコア(独自算出の注目度): 50.07071392673984
- License:
- Abstract: Determining the 3D orientations of an object in an image, known as single-image pose estimation, is a crucial task in 3D vision applications. Existing methods typically learn 3D rotations parametrized in the spatial domain using Euler angles or quaternions, but these representations often introduce discontinuities and singularities. SO(3)-equivariant networks enable the structured capture of pose patterns with data-efficient learning, but the parametrizations in spatial domain are incompatible with their architecture, particularly spherical CNNs, which operate in the frequency domain to enhance computational efficiency. To overcome these issues, we propose a frequency-domain approach that directly predicts Wigner-D coefficients for 3D rotation regression, aligning with the operations of spherical CNNs. Our SO(3)-equivariant pose harmonics predictor overcomes the limitations of spatial parameterizations, ensuring consistent pose estimation under arbitrary rotations. Trained with a frequency-domain regression loss, our method achieves state-of-the-art results on benchmarks such as ModelNet10-SO(3) and PASCAL3D+, with significant improvements in accuracy, robustness, and data efficiency.
- Abstract(参考訳): 画像中の物体の3次元方向を決定することは、単画像ポーズ推定(Single-image pose Estimation)と呼ばれ、三次元視覚アプリケーションにおいて重要な課題である。
既存の方法は通常、オイラー角や四元数を用いて空間領域でパラメータ化された3次元回転を学習するが、これらの表現はしばしば不連続性や特異性をもたらす。
SO(3)-同変ネットワークは、データ効率の学習によるポーズパターンの構造化を可能にするが、空間領域のパラメトリゼーションはそれらのアーキテクチャ、特に周波数領域で動作する球面CNNと不整合である。
これらの問題を克服するために、球状CNNの操作と整合して、Wigner-D係数を直接予測する周波数領域アプローチを提案する。
我々のSO(3)-等価ポーズ予測器は空間パラメータ化の限界を克服し、任意の回転の下で一貫したポーズ推定を確実にする。
周波数領域の回帰損失を学習し,ModelNet10-SO(3) や PASCAL3D+ などのベンチマークにおいて,精度,ロバスト性,データ効率の大幅な向上を図った。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。
本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:23:08Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。