論文の概要: A Unified Framework for 3D Point Cloud Visual Grounding
- arxiv url: http://arxiv.org/abs/2308.11887v1
- Date: Wed, 23 Aug 2023 03:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:57:36.645278
- Title: A Unified Framework for 3D Point Cloud Visual Grounding
- Title(参考訳): 3dポイントクラウドビジュアライゼーションのための統一フレームワーク
- Authors: Haojia Lin, Yongdong Luo, Xiawu Zheng, Lijiang Li, Fei Chao, Taisong
Jin, Donghao Luo, Chengjie Wang, Yan Wang, Liujuan Cao
- Abstract要約: 3Dポイント雲の視覚的接地は3Dシーン理解において重要な役割を担い、3D参照表現理解(3DREC)とセグメンテーション(3DRES)を包含する
本稿では,3DRECと3DRESを統合した3D Referring Transformer(3DRefTR)について述べる。
- 参考スコア(独自算出の注目度): 45.641687896122164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D point cloud visual grounding plays a critical role in 3D scene
comprehension, encompassing 3D referring expression comprehension (3DREC) and
segmentation (3DRES). We argue that 3DREC and 3DRES should be unified in one
framework, which is also a natural progression in the community. To explain,
3DREC can help 3DRES locate the referent, while 3DRES can also facilitate 3DREC
via more finegrained language-visual alignment. To achieve this, this paper
takes the initiative step to integrate 3DREC and 3DRES into a unified
framework, termed 3D Referring Transformer (3DRefTR). Its key idea is to build
upon a mature 3DREC model and leverage ready query embeddings and visual tokens
from the 3DREC model to construct a dedicated mask branch. Specially, we
propose Superpoint Mask Branch, which serves a dual purpose: i) By leveraging
the heterogeneous CPU-GPU parallelism, while the GPU is occupied generating
visual tokens, the CPU concurrently produces superpoints, equivalently
accomplishing the upsampling computation; ii) By harnessing on the inherent
association between the superpoints and point cloud, it eliminates the heavy
computational overhead on the high-resolution visual features for upsampling.
This elegant design enables 3DRefTR to achieve both well-performing 3DRES and
3DREC capacities with only a 6% additional latency compared to the original
3DREC model. Empirical evaluations affirm the superiority of 3DRefTR.
Specifically, on the ScanRefer dataset, 3DRefTR surpasses the state-of-the-art
3DRES method by 12.43% in mIoU and improves upon the SOTA 3DREC method by 0.6%
Acc@0.25IoU.
- Abstract(参考訳): 3Dポイント雲の視覚的接地は3Dシーン理解において重要な役割を担い、3D参照表現理解(3DREC)とセグメンテーション(3DRES)を含んでいる。
3DRECと3DRESは一つのフレームワークに統合されるべきであり、これはコミュニティの自然な進展でもある。
3DRECは3DRESが参照者を見つけるのに役立ち、3DRESはよりきめ細かい言語と視覚のアライメントによって3DRECを促進することができる。
そこで本研究では,3DRECと3DRESを統合した3D Referring Transformer(3DRefTR)を提案する。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
特に,2つの目的を果たすスーパーポイントマスクブランチを提案する。
一 異種CPU-GPU並列性を利用することにより、GPUが視覚トークンの生成に占有されている間、CPUは同時にスーパーポイントを生成し、そのアップサンプリング計算を同等に達成する。
二 スーパーポイントとポイントクラウドの固有の関連性を利用して、アップサンプリングのための高解像度の視覚的特徴に対する計算オーバーヘッドをなくす。
このエレガントな設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
3DRefTRの優位性が確認された。
具体的には、ScanReferデータセットにおいて、3DRefTRは最先端の3DRES法を12.43%mIoUで上回り、SOTA 3DREC法を0.6%Acc@0.25IoUで改善する。
関連論文リスト
- Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。