論文の概要: Point2Seq: Detecting 3D Objects as Sequences
- arxiv url: http://arxiv.org/abs/2203.13394v1
- Date: Fri, 25 Mar 2022 00:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 00:16:22.147825
- Title: Point2Seq: Detecting 3D Objects as Sequences
- Title(参考訳): Point2Seq: 3Dオブジェクトをシーケンスとして検出する
- Authors: Yujing Xue, Jiageng Mao, Minzhe Niu, Hang Xu, Michael Bi Mi, Wei
Zhang, Xiaogang Wang, Xinchao Wang
- Abstract要約: 我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
- 参考スコア(独自算出の注目度): 58.63662049729309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple and effective framework, named Point2Seq, for 3D object
detection from point clouds. In contrast to previous methods that normally
{predict attributes of 3D objects all at once}, we expressively model the
interdependencies between attributes of 3D objects, which in turn enables a
better detection accuracy. Specifically, we view each 3D object as a sequence
of words and reformulate the 3D object detection task as decoding words from 3D
scenes in an auto-regressive manner. We further propose a lightweight
scene-to-sequence decoder that can auto-regressively generate words conditioned
on features from a 3D scene as well as cues from the preceding words. The
predicted words eventually constitute a set of sequences that completely
describe the 3D objects in the scene, and all the predicted sequences are then
automatically assigned to the respective ground truths through similarity-based
sequence matching. Our approach is conceptually intuitive and can be readily
plugged upon most existing 3D-detection backbones without adding too much
computational overhead; the sequential decoding paradigm we proposed, on the
other hand, can better exploit information from complex 3D scenes with the aid
of preceding predicted words. Without bells and whistles, our method
significantly outperforms previous anchor- and center-based 3D object detection
frameworks, yielding the new state of the art on the challenging ONCE dataset
as well as the Waymo Open Dataset. Code is available at
\url{https://github.com/ocNflag/point2seq}.
- Abstract(参考訳): 我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
従来の3Dオブジェクトの属性を1度に予測する手法とは対照的に,3Dオブジェクトの属性間の相互依存性を表現的にモデル化することで,検出精度が向上する。
具体的には,各3次元オブジェクトを単語列とみなし,各3次元オブジェクト検出タスクを自動回帰的に3次元シーンからの単語の復号化として再構成する。
さらに,3dシーンから特徴を条件とした単語を自動生成し,先行する単語からのヒントを自動生成する軽量なシーンからシーケンスへのデコーダを提案する。
予測された単語は最終的にシーン内の3Dオブジェクトを完全に記述した一連のシーケンスを構成し、予測されたすべてのシーケンスは、類似性に基づくシーケンスマッチングによって、自動的に各基底真実に割り当てられる。
我々の手法は概念的に直観的であり、計算オーバーヘッドが多すぎることなく既存のほとんどの3D検出バックボーンに簡単に接続できる。一方、我々が提案した逐次デコードパラダイムは、予測された単語の助けを借りて複雑な3Dシーンの情報を活用することができる。
ベルとホイッスルがなければ、我々の手法は従来のアンカーとセンターベースの3Dオブジェクト検出フレームワークよりも大幅に優れており、挑戦的なONCEデータセットとWaymo Open Datasetの新たな状態が得られる。
コードは \url{https://github.com/ocNflag/point2seq} で入手できる。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。