論文の概要: 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction
- arxiv url: http://arxiv.org/abs/2411.00543v2
- Date: Mon, 04 Nov 2024 10:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:43.279378
- Title: 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction
- Title(参考訳): 直接ウィグナー-D高調波予測による3次元同変姿勢回帰
- Authors: Jongmin Lee, Minsu Cho,
- Abstract要約: 既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
- 参考スコア(独自算出の注目度): 50.07071392673984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the 3D orientations of an object in an image, known as single-image pose estimation, is a crucial task in 3D vision applications. Existing methods typically learn 3D rotations parametrized in the spatial domain using Euler angles or quaternions, but these representations often introduce discontinuities and singularities. SO(3)-equivariant networks enable the structured capture of pose patterns with data-efficient learning, but the parametrizations in spatial domain are incompatible with their architecture, particularly spherical CNNs, which operate in the frequency domain to enhance computational efficiency. To overcome these issues, we propose a frequency-domain approach that directly predicts Wigner-D coefficients for 3D rotation regression, aligning with the operations of spherical CNNs. Our SO(3)-equivariant pose harmonics predictor overcomes the limitations of spatial parameterizations, ensuring consistent pose estimation under arbitrary rotations. Trained with a frequency-domain regression loss, our method achieves state-of-the-art results on benchmarks such as ModelNet10-SO(3) and PASCAL3D+, with significant improvements in accuracy, robustness, and data efficiency.
- Abstract(参考訳): 画像中の物体の3次元方向を決定することは、単画像ポーズ推定(Single-image pose Estimation)と呼ばれ、三次元視覚アプリケーションにおいて重要な課題である。
既存の方法は通常、オイラー角や四元数を用いて空間領域でパラメータ化された3次元回転を学習するが、これらの表現はしばしば不連続性や特異性をもたらす。
SO(3)-同変ネットワークは、データ効率の学習によるポーズパターンの構造化を可能にするが、空間領域のパラメトリゼーションはそれらのアーキテクチャ、特に周波数領域で動作する球面CNNと不整合である。
これらの問題を克服するために、球状CNNの操作と整合して、Wigner-D係数を直接予測する周波数領域アプローチを提案する。
我々のSO(3)-等価ポーズ予測器は空間パラメータ化の限界を克服し、任意の回転の下で一貫したポーズ推定を確実にする。
周波数領域の回帰損失を学習し,ModelNet10-SO(3) や PASCAL3D+ などのベンチマークにおいて,精度,ロバスト性,データ効率の大幅な向上を図った。
関連論文リスト
- Long-Range depth estimation using learning based Hybrid Distortion Model for CCTV cameras [0.0]
本稿では,物体を長距離に局在させるのに適した歪みモデルをモデル化するための枠組みを提案する。
ニューラルネットワークは、非常に複雑な非線形レンズ歪み関数をモデル化するより良い代替となることはよく知られている。
このハイブリッドアプローチは、長距離ローカライゼーション性能を大幅に改善し、最大5kmの距離で物体の3次元位置を推定できる。
論文 参考訳(メタデータ) (2025-12-19T16:54:43Z) - JOGS: Joint Optimization of Pose Estimation and 3D Gaussian Splatting [10.35563602148445]
本稿では,3次元ガウス点とカメラポーズを事前校正入力を必要とせずに協調的に最適化する統合フレームワークを提案する。
我々のアプローチは、3Dガウスパラメータを反復的に洗練し、新しいコ最適化戦略によってカメラのポーズを更新する。
提案手法は,再建品質において既存のCOLMAPフリー技術よりも優れており,標準のCOLMAPベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-10-30T04:00:07Z) - Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification [12.168520751389622]
Kanetは改良された3D-DenseNetモデルであり、3D Kan Convとアダプティブグリッド更新機構で構成されている。
Kanetはネットワークの深さや幅を増大させることなく、3D動的専門家畳み込みシステムを通じてモデル表現能力を向上させる。
提案手法は、IN, UP, KSCデータセット上での優れた性能を示し、主流のハイパースペクトル画像分類手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-21T14:57:48Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。
本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:23:08Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D
Object Pose Estimation [66.16525145765604]
実世界のシナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は,3次元登録タスクをデノナイズ拡散過程として定式化し,音源雲の姿勢を段階的に洗練する。
実世界のTUD-L, LINEMOD, およびOccluded-LINEMODデータセットにおいて, 拡散登録フレームワークが顕著なポーズ推定性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-26T12:47:26Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。