論文の概要: OcTr: Octree-based Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.12621v1
- Date: Wed, 22 Mar 2023 15:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:58:28.968166
- Title: OcTr: Octree-based Transformer for 3D Object Detection
- Title(参考訳): OcTr:3次元物体検出のためのOcree-based Transformer
- Authors: Chao Zhou, Yanan Zhang, Jiaxin Chen, Di Huang
- Abstract要約: LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
- 参考スコア(独自算出の注目度): 30.335788698814444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge for LiDAR-based 3D object detection is to capture sufficient
features from large scale 3D scenes especially for distant or/and occluded
objects. Albeit recent efforts made by Transformers with the long sequence
modeling capability, they fail to properly balance the accuracy and efficiency,
suffering from inadequate receptive fields or coarse-grained holistic
correlations. In this paper, we propose an Octree-based Transformer, named
OcTr, to address this issue. It first constructs a dynamic octree on the
hierarchical feature pyramid through conducting self-attention on the top level
and then recursively propagates to the level below restricted by the octants,
which captures rich global context in a coarse-to-fine manner while maintaining
the computational complexity under control. Furthermore, for enhanced
foreground perception, we propose a hybrid positional embedding, composed of
the semantic-aware positional embedding and attention mask, to fully exploit
semantic and geometry clues. Extensive experiments are conducted on the Waymo
Open Dataset and KITTI Dataset, and OcTr reaches newly state-of-the-art
results.
- Abstract(参考訳): LiDARベースの3Dオブジェクト検出の鍵となる課題は、特に遠方または隠蔽されたオブジェクトに対して、大規模な3Dシーンから十分な特徴を捉えることである。
トランスフォーマーによる長いシーケンスモデリング機能による最近の取り組みは、不適切な受容場や粗い全体的相関に苦しむことなく、精度と効率のバランスを適切に取れなかった。
本稿では,OcTrと呼ばれるOcreeベースのトランスフォーマーを提案し,この問題に対処する。
まず、階層的特徴ピラミッド上で動的octreeを構築し、トップレベルで自己アテンションを行い、その後再帰的にオクタントに制限されたレベルまで伝播し、制御下の計算複雑性を維持しながら、リッチな大域的コンテキストを粗い方法でキャプチャする。
さらに,前景知覚の強化のために,意味認識位置埋め込みと注意マスクを組み合わせたハイブリッド位置埋め込みを提案し,意味的および幾何学的手がかりを十分に活用する。
Waymo Open DatasetとKITTI Datasetで大規模な実験が行われ、OcTrは新たに最先端の結果に達した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。