論文の概要: Anyview: Generalizable Indoor 3D Object Detection with Variable Frames
- arxiv url: http://arxiv.org/abs/2310.05346v1
- Date: Mon, 9 Oct 2023 02:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:22:31.132858
- Title: Anyview: Generalizable Indoor 3D Object Detection with Variable Frames
- Title(参考訳): Anyview: 可変フレームによる一般的な室内3Dオブジェクト検出
- Authors: Zhenyu Wu, Xiuwei Xu, Ziwei Wang, Chong Xia, Linqing Zhao, Jiwen Lu
and Haibin Yan
- Abstract要約: 我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
- 参考スコア(独自算出の注目度): 63.51422844333147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel network framework for indoor 3D object
detection to handle variable input frame numbers in practical scenarios.
Existing methods only consider fixed frames of input data for a single
detector, such as monocular RGB-D images or point clouds reconstructed from
dense multi-view RGB-D images. While in practical application scenes such as
robot navigation and manipulation, the raw input to the 3D detectors is the
RGB-D images with variable frame numbers instead of the reconstructed scene
point cloud. However, the previous approaches can only handle fixed frame input
data and have poor performance with variable frame input. In order to
facilitate 3D object detection methods suitable for practical tasks, we present
a novel 3D detection framework named AnyView for our practical applications,
which generalizes well across different numbers of input frames with a single
model. To be specific, we propose a geometric learner to mine the local
geometric features of each input RGB-D image frame and implement local-global
feature interaction through a designed spatial mixture module. Meanwhile, we
further utilize a dynamic token strategy to adaptively adjust the number of
extracted features for each frame, which ensures consistent global feature
density and further enhances the generalization after fusion. Extensive
experiments on the ScanNet dataset show our method achieves both great
generalizability and high detection accuracy with a simple and clean
architecture containing a similar amount of parameters with the baselines.
- Abstract(参考訳): 本稿では,屋内3次元物体検出のための新しいネットワークフレームワークを提案する。
既存の方法は、単一の検出器の入力データの固定フレームのみを考慮し、例えば、高密度の多視点RGB-D画像から再構成された単眼RGB-D画像や点雲などである。
ロボットナビゲーションや操作などの現実的な応用シーンでは、3D検出器への生の入力は、再構成されたシーンポイントクラウドの代わりに、フレーム番号が可変なRGB-D画像である。
しかし、従来の手法では固定フレーム入力データのみを処理でき、可変フレーム入力では性能が劣る。
実用的課題に適した3次元物体検出手法を実現するため,我々は,様々な入力フレームを1つのモデルで一般化した,anyviewと呼ばれる新しい3次元物体検出フレームワークを提案する。
具体的には,各入力RGB-D画像フレームの局所的幾何学的特徴を抽出し,設計した空間混合モジュールを介して局所的特徴相互作用を実装する幾何学的学習者を提案する。
一方,動的なトークン戦略を用いて各フレームの抽出された特徴数を適応的に調整し,一貫したグローバル特徴密度を確保し,融合後の一般化をさらに高める。
ScanNetデータセットの大規模な実験により,本手法は,ベースラインに類似するパラメータを含む単純でクリーンなアーキテクチャを用いて,高い一般化性と高い検出精度を実現する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - ODAM: Object Detection, Association, and Mapping using Posed RGB Video [36.16010611723447]
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
論文 参考訳(メタデータ) (2021-08-23T13:28:10Z) - ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View
General-Purpose 3D Object Detection [3.330229314824913]
ImVoxelNetは、モノクロまたはマルチビューRGB画像に基づく3Dオブジェクト検出の新しい完全畳み込み方式である。
ImVoxelNetは、屋内と屋外の両方のシーンをうまく処理する。
SUN RGB-Dデータセット上の既存のRGBベースの3Dオブジェクト検出方法を上回る。
論文 参考訳(メタデータ) (2021-06-02T14:20:24Z) - LCD -- Line Clustering and Description for Place Recognition [29.053923938306323]
本稿では,RGB-Dカメラとラインクラスタを視覚的および幾何学的特徴として利用し,位置認識のための新しい学習ベースのアプローチを提案する。
本稿では,フレームワイド線クラスタリングのアテンション機構に基づくニューラルネットワークアーキテクチャを提案する。
同様のニューラルネットワークは、128個の浮動小数点数のコンパクトな埋め込みによるこれらのクラスタの記述に使用される。
論文 参考訳(メタデータ) (2020-10-21T09:52:47Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。