論文の概要: Distilling 3D distinctive local descriptors for 6D pose estimation
- arxiv url: http://arxiv.org/abs/2503.15106v1
- Date: Wed, 19 Mar 2025 11:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:26.860853
- Title: Distilling 3D distinctive local descriptors for 6D pose estimation
- Title(参考訳): 6次元ポーズ推定のための3次元特異局所記述子の蒸留
- Authors: Amir Hamza, Andrea Caraffa, Davide Boscaini, Fabio Poiesi,
- Abstract要約: 3次元局所記述子は幾何学的表面特性の符号化に不可欠である。
GeDiは強力なゼロショット6Dポーズ推定機能を示してきたが、現実のアプリケーションでは計算に実用的ではない。
本稿では,GeDi教師からローカル記述子を回帰するために,効率的な学生モデルを訓練する知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.754251195342313
- License:
- Abstract: Three-dimensional local descriptors are crucial for encoding geometric surface properties, making them essential for various point cloud understanding tasks. Among these descriptors, GeDi has demonstrated strong zero-shot 6D pose estimation capabilities but remains computationally impractical for real-world applications due to its expensive inference process. \textit{Can we retain GeDi's effectiveness while significantly improving its efficiency?} In this paper, we explore this question by introducing a knowledge distillation framework that trains an efficient student model to regress local descriptors from a GeDi teacher. Our key contributions include: an efficient large-scale training procedure that ensures robustness to occlusions and partial observations while operating under compute and storage constraints, and a novel loss formulation that handles weak supervision from non-distinctive teacher descriptors. We validate our approach on five BOP Benchmark datasets and demonstrate a significant reduction in inference time while maintaining competitive performance with existing methods, bringing zero-shot 6D pose estimation closer to real-time feasibility. Project Website: https://tev-fbk.github.io/dGeDi/
- Abstract(参考訳): 三次元局所記述子は幾何学的表面特性の符号化に不可欠であり、様々な点雲理解タスクに不可欠である。
これらの記述子の中で、GeDiは強力なゼロショット6Dポーズ推定能力を示してきたが、その高価な推論プロセスのため、現実のアプリケーションには計算的に非現実的である。
GeDiの有効性を維持しながら、その効率を大幅に改善するのでしょうか?
そこで,本稿では,GeDi教師からローカル記述子を復元するために,効率的な学生モデルを訓練する知識蒸留フレームワークを導入することで,この問題を考察する。
我々の重要な貢献は、計算と記憶の制約の下でオクルージョンと部分観察の堅牢性を保証する効率的な大規模訓練手順、および、非識別的教師記述子からの弱い監督を扱う新しい損失定式化である。
提案手法を5つのBOPベンチマークデータセットで検証し,既存の手法と競合する性能を維持しつつ,推論時間の大幅な短縮を実証した。
プロジェクトウェブサイト:https://tev-fbk.github.io/dGeDi/
関連論文リスト
- IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects [37.175069234979645]
本研究は,実世界の3次元ラベル付きデータに依存しない3次元オブジェクト認識の課題に対処する。
我々のゴールは、単一のRGB-D画像内のオブジェクトの3次元形状、サイズ、および6次元のポーズを予測し、カテゴリレベルで動作し、推論中のCADモデルの必要性を排除することである。
論文 参考訳(メタデータ) (2023-10-19T17:59:09Z) - Representation Disparity-aware Distillation for 3D Object Detection [44.17712259352281]
本稿では,表現格差問題に対処する新しい表現格差対応蒸留法を提案する。
RDD は CP-Voxel-S の mAP を nuScenes データセット上で57.1% に引き上げる。
論文 参考訳(メタデータ) (2023-08-20T16:06:42Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z) - PAM:Point-wise Attention Module for 6D Object Pose Estimation [2.4815579733050153]
6次元ポーズ推定は3次元回転と3次元変換の物体認識と推定を指す。
従来の手法では、精細化の過程で深度情報を利用したり、各データ空間で特徴を抽出するための異種アーキテクチャとして設計されていた。
本稿では,RGB-Dから効率よく強力な特徴を抽出できるポイントアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-08-12T11:29:48Z) - SEKD: Self-Evolving Keypoint Detection and Description [42.114065439674036]
ラベルのない自然画像から高度な局所特徴モデルを学ぶための自己教師型フレームワークを提案する。
提案手法は, ホモグラフィー推定, 相対的なポーズ推定, および動きからの構造的タスクについてベンチマークする。
トレーニングされたモデルとともに、コードを公開します。
論文 参考訳(メタデータ) (2020-06-09T06:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。