論文の概要: A Unified Framework for 3D Point Cloud Visual Grounding
- arxiv url: http://arxiv.org/abs/2308.11887v2
- Date: Mon, 20 Nov 2023 08:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 18:22:41.413068
- Title: A Unified Framework for 3D Point Cloud Visual Grounding
- Title(参考訳): 3dポイントクラウドビジュアライゼーションのための統一フレームワーク
- Authors: Haojia Lin, Yongdong Luo, Xiawu Zheng, Lijiang Li, Fei Chao, Taisong
Jin, Donghao Luo, Yan Wang, Liujuan Cao, Rongrong Ji
- Abstract要約: 本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
- 参考スコア(独自算出の注目度): 60.75319271082741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to its precise spatial referencing, 3D point cloud visual grounding is
essential for deep understanding and dynamic interaction in 3D environments,
encompassing 3D Referring Expression Comprehension (3DREC) and Segmentation
(3DRES). We argue that 3DREC and 3DRES should be unified in one framework,
which is also a natural progression in the community. To explain, 3DREC help
3DRES locate the referent, while 3DRES also facilitate 3DREC via more
fine-grained language-visual alignment. To achieve this, this paper takes the
initiative step to integrate 3DREC and 3DRES into a unified framework, termed
3D Referring Transformer (3DRefTR). Its key idea is to build upon a mature
3DREC model and leverage ready query embeddings and visual tokens from the
3DREC model to construct a dedicated mask branch. Specially, we propose
Superpoint Mask Branch, which serves a dual purpose: i) By harnessing on the
inherent association between the superpoints and point cloud, it eliminates the
heavy computational overhead on the high-resolution visual features for
upsampling; ii) By leveraging the heterogeneous CPU-GPU parallelism, while the
GPU is occupied generating visual and language tokens, the CPU concurrently
produces superpoints, equivalently accomplishing the upsampling computation.
This elaborate design enables 3DRefTR to achieve both well-performing 3DRES and
3DREC capacities with only a 6% additional latency compared to the original
3DREC model. Empirical evaluations affirm the superiority of 3DRefTR.
Specifically, on the ScanRefer dataset, 3DRefTR surpasses the state-of-the-art
3DRES method by 12.43% in mIoU and improves upon the SOTA 3DREC method by 0.6%
Acc@0.25IoU. The codes and models will be released soon.
- Abstract(参考訳): 正確な空間参照により、3D参照式理解(3DREC)とセグメンテーション(3DRES)を含む3D環境における深い理解と動的相互作用に、3Dポイント・クラウド・グラウンドリングが不可欠である。
3DRECと3DRESは一つのフレームワークに統合されるべきであり、これはコミュニティの自然な進展でもある。
3DRECは3DRESが参照者を見つけるのに役立ち、3DRESはよりきめ細かな言語と視覚のアライメントによって3DRECを促進する。
そこで本研究では,3DRECと3DRESを統合した3D Referring Transformer(3DRefTR)を提案する。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
特に,2つの目的を果たすスーパーポイントマスクブランチを提案する。
一 スーパーポイントとポイントクラウドの固有の関連性を利用して、アップサンプリングのための高解像度視覚的特徴の計算上のオーバーヘッドをなくす。
二 異種CPU-GPU並列性を活用することにより、GPUは視覚的および言語的トークンを生成する一方、CPUはスーパーポイントを同時に生成し、アップサンプリング計算を同等に達成する。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
3DRefTRの優位性が確認された。
具体的には、ScanReferデータセットにおいて、3DRefTRは最先端の3DRES法を12.43%mIoUで上回り、SOTA 3DREC法を0.6%Acc@0.25IoUで改善する。
コードとモデルはまもなくリリースされる予定だ。
関連論文リスト
- ShapeLLM: Universal 3D Object Understanding for Embodied Interaction [42.27389739545129]
本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。
ShapeLLMは、構築した命令追従データに基づいて訓練され、新しい評価ベンチマークである3D MM-Vetでテストされた。
論文 参考訳(メタデータ) (2024-02-27T18:57:12Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。