論文の概要: Context-Aware Transformer for 3D Point Cloud Automatic Annotation
- arxiv url: http://arxiv.org/abs/2303.14893v1
- Date: Mon, 27 Mar 2023 03:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:54:33.515441
- Title: Context-Aware Transformer for 3D Point Cloud Automatic Annotation
- Title(参考訳): 3dポイントクラウド自動アノテーションのためのコンテキスト認識トランスフォーマー
- Authors: Xiaoyan Qian, Chang Liu, Xiaojuan Qi, Siew-Chong Tan, Edmund Lam, Ngai
Wong
- Abstract要約: 自動3Dボックスラベスターとして、エンドツーエンドのコンテキスト認識変換器(CAT)を提案する。
Catは、少数の人間のアノテーションで訓練された2Dボックスから正確な3Dボックスアノテーションを生成する。
KITTIテストセットのハードタスクにおいて、既存の最先端の3D APを最大1.79%上回ることができる。
- 参考スコア(独自算出の注目度): 29.587032575742935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D automatic annotation has received increased attention since manually
annotating 3D point clouds is laborious. However, existing methods are usually
complicated, e.g., pipelined training for 3D foreground/background
segmentation, cylindrical object proposals, and point completion. Furthermore,
they often overlook the inter-object feature relation that is particularly
informative to hard samples for 3D annotation. To this end, we propose a simple
yet effective end-to-end Context-Aware Transformer (CAT) as an automated 3D-box
labeler to generate precise 3D box annotations from 2D boxes, trained with a
small number of human annotations. We adopt the general encoder-decoder
architecture, where the CAT encoder consists of an intra-object encoder (local)
and an inter-object encoder (global), performing self-attention along the
sequence and batch dimensions, respectively. The former models intra-object
interactions among points, and the latter extracts feature relations among
different objects, thus boosting scene-level understanding. Via local and
global encoders, CAT can generate high-quality 3D box annotations with a
streamlined workflow, allowing it to outperform existing state-of-the-art by up
to 1.79% 3D AP on the hard task of the KITTI test set.
- Abstract(参考訳): 3dポイントクラウドを手動でアノテートするのは手間がかかるため、3d自動アノテーションは注目を集めている。
しかし、既存の手法は通常複雑で、3Dフォアグラウンド/バックグラウンドセグメンテーション、円筒形オブジェクトの提案、ポイントコンプリートなどである。
さらに、彼らはしばしば3dアノテーションのハードサンプルに特に有益であるオブジェクト間の特徴関係を見落とします。
そこで本研究では,2Dボックスから正確な3Dボックスアノテーションを生成するための3Dボックスラベラとして,簡易かつ効果的なコンテキスト認識変換器(CAT)を提案する。
我々は、CATエンコーダがオブジェクト内エンコーダ(ローカル)とオブジェクト間エンコーダ(グロバル)で構成され、それぞれシーケンスに沿って自己アテンションを行う一般的なエンコーダデコーダアーキテクチャを採用する。
前者は点間の物体間相互作用をモデル化し、後者は異なる物体間の特徴関係を抽出し、シーンレベルの理解を促進する。
ローカルおよびグローバルエンコーダによって、CATはワークフローの合理化によって高品質な3Dボックスアノテーションを生成することができ、KITTIテストセットのハードタスクで既存の最先端のAPを最大1.79%上回ることができる。
関連論文リスト
- CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2023-06-08T17:58:57Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Implicit Autoencoder for Point-Cloud Self-Supervised Representation
Learning [39.521374237630766]
最もポピュラーでアクセスしやすい3D表現、すなわち点雲は、下層の連続した3D表面の離散的なサンプルを含む。
この離散化プロセスは3次元形状のサンプリングのバリエーションを導入し、真の3次元幾何学の伝達可能な知識を開発するのが困難になる。
標準的なオートエンコーディングパラダイムでは、エンコーダは3D形状だけでなく、3D形状の特定の離散サンプリングに関する情報を潜在コードにエンコードする。
これは、デコーダによって再構成された点雲が、原点と再構成された点との完全なマッピングがない限り、受け入れられないためである。
論文 参考訳(メタデータ) (2022-01-03T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。