Fugu-MT 論文翻訳(概要): VoxDet: Voxel Learning for Novel Instance Detection

論文の概要: VoxDet: Voxel Learning for Novel Instance Detection

arxiv url: http://arxiv.org/abs/2305.17220v3
Date: Sun, 4 Jun 2023 14:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 00:41:11.475662
Title: VoxDet: Voxel Learning for Novel Instance Detection
Title（参考訳）: VoxDet: 新しいインスタンス検出のためのVoxel Learning
Authors: Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer
Abstract要約: 未知のインスタンスを検出するための3D幾何認識フレームワークであるVoxDetを紹介した。 VoxDetは強力な3Dボクセル表現と信頼性の高いボクセルマッチング機構を完全に活用している。 VoxDetは、リコール率が20%向上し、高速な2Dベースラインを著しく上回っていることがわかった。
参考スコア（独自算出の注目度）: 12.2662797317439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are often inadequate in handling pose variations and occlusions. To solve this, we introduce VoxDet, a pioneer 3D geometry-aware framework that fully utilizes the strong 3D voxel representation and reliable voxel matching mechanism. VoxDet first ingeniously proposes template voxel aggregation (TVA) module, effectively transforming multi-view 2D images into 3D voxel features. By leveraging associated camera poses, these features are aggregated into a compact 3D template voxel. In novel instance detection, this voxel representation demonstrates heightened resilience to occlusion and pose variations. We also discover that a 3D reconstruction objective helps to pre-train the 2D-3D mapping in TVA. Second, to quickly align with the template voxel, VoxDet incorporates a Query Voxel Matching (QVM) module. The 2D queries are first converted into their voxel representation with the learned 2D-3D mapping. We find that since the 3D voxel representations encode the geometry, we can first estimate the relative rotation and then compare the aligned voxels, leading to improved accuracy and efficiency. Exhaustive experiments are conducted on the demanding LineMod-Occlusion, YCB-video, and the newly built RoboTools benchmarks, where VoxDet outperforms various 2D baselines remarkably with 20% higher recall and faster speed. To the best of our knowledge, VoxDet is the first to incorporate implicit 3D knowledge for 2D detection tasks.
Abstract（参考訳）: マルチビューテンプレートに基づくunseenインスタンスの検出は、そのオープンワールドの性質上、難しい問題である。 2次元表現とマッチング技術に主に依存する伝統的な方法論は、ポーズのバリエーションやオクルージョンを扱うのに不十分であることが多い。この問題を解決するために,我々は,強力な3次元ボクセル表現と信頼性の高いボクセルマッチング機構をフルに活用した,先駆的な3次元幾何認識フレームワークvoxdetを紹介する。 VoxDetはまず、マルチビュー2D画像を効果的に3Dボクセル特徴に変換するテンプレートボクセルアグリゲーション(TVA)モジュールを提案する。関連するカメラポーズを活用することで、これらの機能はコンパクトな3dテンプレートvoxelに集約される。新規なインスタンス検出では、このボクセル表現は閉塞に対する抵抗性を高め、変動を生じさせる。また,TVAの2D-3Dマッピングを事前学習する上で,3次元再構成の目的が有効であることが判明した。次に、VoxDetはテンプレートのvoxelと迅速に連携するために、Query Voxel Matching (QVM)モジュールを組み込んでいる。 2dクエリはまず、学習した2d-3dマッピングでvoxel表現に変換される。 3次元ボクセル表現は幾何学をエンコードするので、まず相対回転を推定し、配置されたボクセルを比較することで精度と効率が向上する。要求されるLineMod-Occlusion、YCB-video、新たに構築されたRoboToolsベンチマークにおいて、VoxDetはリコール率20%、高速な2Dベースラインを著しく上回っている。我々の知る限りでは、VoxDetは暗黙の3D知識を初めて2D検出タスクに組み込んだものだ。

関連論文リスト

PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing [51.56943889042673]
PercHeadは、シングルイメージの3Dヘッド再構成とセマンティック3D編集のための方法である。単一の入力画像からビュー一貫性を持つ3Dヘッドを再構成するための統一ベースモデルを開発する。軽量でインタラクティブなGUIを通して、直感的で強力な3D編集機能を強調します。
論文参考訳（メタデータ） (2025-11-04T17:59:15Z)
3DPillars: Pillar-based two-stage 3D object detection [29.757231369014068]
PointPillarsは、擬似画像表現を利用してシーン内の3Dオブジェクトの機能をエンコードする、最速の3Dオブジェクト検出器である。本稿では,擬似画像表現を利用した最初の2段階3D検出フレームワークについて紹介する。
論文参考訳（メタデータ） (2025-09-06T17:23:01Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文参考訳（メタデータ） (2023-03-20T17:40:44Z)
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文参考訳（メタデータ） (2023-02-23T18:59:36Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
Voxelized 3D Feature Aggregation for Multiview Detection [15.465855460519446]
VFA, Voxelized 3D feature aggregate, for feature transformation and aggregate in multi-view detection。具体的には、3D空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2D機能とこれらプロジェクションされたボクセルを関連付ける。これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
論文参考訳（メタデータ） (2021-12-07T03:38:50Z)
Voxel-based 3D Detection and Reconstruction of Multiple Objects from a Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文参考訳（メタデータ） (2021-11-04T18:30:37Z)
HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文参考訳（メタデータ） (2021-04-02T06:34:49Z)
Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。 2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文参考訳（メタデータ） (2020-12-31T17:02:46Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。