論文の概要: Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
- arxiv url: http://arxiv.org/abs/2204.10688v1
- Date: Fri, 22 Apr 2022 13:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:44:34.698758
- Title: Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
- Title(参考訳): 点雲上の3次元高密度キャプションのための空間性誘導変圧器
- Authors: Heng Wang, Chaoyi Zhang, Jianhui Yu, Weidong Cai
- Abstract要約: 3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
- 参考スコア(独自算出の注目度): 20.172702468478057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense captioning in 3D point clouds is an emerging vision-and-language task
involving object-level 3D scene understanding. Apart from coarse semantic class
prediction and bounding box regression as in traditional 3D object detection,
3D dense captioning aims at producing a further and finer instance-level label
of natural language description on visual appearance and spatial relations for
each scene object of interest. To detect and describe objects in a scene,
following the spirit of neural machine translation, we propose a
transformer-based encoder-decoder architecture, namely SpaCap3D, to transform
objects into descriptions, where we especially investigate the relative
spatiality of objects in 3D scenes and design a spatiality-guided encoder via a
token-to-token spatial relation learning objective and an object-centric
decoder for precise and spatiality-enhanced object caption generation.
Evaluated on two benchmark datasets, ScanRefer and ReferIt3D, our proposed
SpaCap3D outperforms the baseline method Scan2Cap by 4.94% and 9.61% in
CIDEr@0.5IoU, respectively. Our project page with source code and supplementary
files is available at https://SpaCap3D.github.io/ .
- Abstract(参考訳): 3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
従来の3Dオブジェクト検出のように粗いセマンティッククラス予測とバウンディングボックスレグレッションとは別に、3D高密度キャプションは、各シーン対象の視覚的外観と空間的関係に関する自然言語記述のよりきめ細やかなインスタンスレベルラベルを作成することを目的としている。
そこで我々は,3dシーンにおける物体の相対空間性について特に検討し,トークン・ツー・トケン空間関係学習目的と対象中心デコーダを用いて空間案内エンコーダの設計を行い,高精度かつ空間性エンハンスドオブジェクトキャプションを生成するトランスフォーマベースのエンコーダ・デコーダアーキテクチャを提案する。
ScanReferとReferIt3Dの2つのベンチマークデータセットから評価し、提案したSpaCap3Dは、それぞれCIDEr@0.5IoUのベースラインメソッドScan2Capを4.94%、9.61%上回っている。
ソースコードと追加ファイルのプロジェクトページはhttps://spacap3d.github.io/で閲覧できます。
関連論文リスト
- Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Scan2Cap: Context-aware Dense Captioning in RGB-D Scans [10.688467522949082]
本稿では,コモディティRGB-Dセンサを用いた3Dスキャンにおける高密度キャプションの課題について紹介する。
入力シーン内のオブジェクトを検出し,それらを自然言語で記述する,エンドツーエンドのトレーニング手法であるScan2Capを提案する。
ScanReferデータセットから3Dオブジェクトを効果的にローカライズし,記述することができる。
論文 参考訳(メタデータ) (2020-12-03T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。