論文の概要: Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End
3D Dense Captioning
- arxiv url: http://arxiv.org/abs/2309.02999v1
- Date: Wed, 6 Sep 2023 13:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:25:45.378898
- Title: Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End
3D Dense Captioning
- Title(参考訳): Vote2Cap-DETR++: ローカライゼーションのデカップリングと、エンドツーエンドの3D Dense Captioningのための記述
- Authors: Sijin Chen, Hongyuan Zhu, Mingsheng Li, Xin Chen, Peng Guo, Yinjie
Lei, Gang Yu, Taihao Li, and Tao Chen
- Abstract要約: 3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。
既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。
まず,キャプション生成のデコード処理と並列デコードによるオブジェクトローカライゼーションを分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。
- 参考スコア(独自算出の注目度): 37.44886367452029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D dense captioning requires a model to translate its understanding of an
input 3D scene into several captions associated with different object regions.
Existing methods adopt a sophisticated "detect-then-describe" pipeline, which
builds explicit relation modules upon a 3D detector with numerous hand-crafted
components. While these methods have achieved initial success, the cascade
pipeline tends to accumulate errors because of duplicated and inaccurate box
estimations and messy 3D scenes. In this paper, we first propose Vote2Cap-DETR,
a simple-yet-effective transformer framework that decouples the decoding
process of caption generation and object localization through parallel
decoding. Moreover, we argue that object localization and description
generation require different levels of scene understanding, which could be
challenging for a shared set of queries to capture. To this end, we propose an
advanced version, Vote2Cap-DETR++, which decouples the queries into
localization and caption queries to capture task-specific features.
Additionally, we introduce the iterative spatial refinement strategy to vote
queries for faster convergence and better localization performance. We also
insert additional spatial information to the caption head for more accurate
descriptions. Without bells and whistles, extensive experiments on two commonly
used datasets, ScanRefer and Nr3D, demonstrate Vote2Cap-DETR and
Vote2Cap-DETR++ surpass conventional "detect-then-describe" methods by a large
margin. Codes will be made available at
https://github.com/ch3cook-fdu/Vote2Cap-DETR.
- Abstract(参考訳): 3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。
既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。
これらの方法が最初に成功したが、カスケードパイプラインは、重複した不正確なボックス推定と乱雑な3dシーンのためにエラーを蓄積する傾向がある。
本稿では,まず,並列デコードによるキャプション生成とオブジェクトローカライゼーションのデコード処理を分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。
さらに、オブジェクトのローカライゼーションと記述生成には異なるレベルのシーン理解が必要であると論じ、共有クエリの集合をキャプチャすることは困難である。
そこで本研究では,クエリをローカライズとキャプションクエリに分離してタスク固有の特徴をキャプチャする,高度なバージョンであるVote2Cap-DETR++を提案する。
さらに,コンバージェンスを高速化し,ローカライズ性能を向上させるために,クエリに投票する反復的空間リファインメント戦略を導入する。
さらに,キャプションヘッドに空間情報を追加して,より正確な説明を行う。
ベルとホイッスルがなければ、一般的な2つのデータセットであるscanreferとnr3dの広範な実験では、従来の"detect-then-describe"メソッドを大差で上回っている。
コードはhttps://github.com/ch3cook-fdu/Vote2Cap-DETRで公開されている。
関連論文リスト
- See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - End-to-End 3D Dense Captioning with Vote2Cap-DETR [45.18715911775949]
3D高密度キャプションは、関連する対象領域にローカライズされた複数のキャプションを生成することを目的としている。
我々は,最近普及しているtextbfDEtection textbfTRansformer (DETR) をベースとした,単純なyet効率のトランスフォーマフレームワークVote2Cap-DETRを提案する。
本フレームワークは,学習可能な投票クエリ駆動オブジェクトデコーダを備えたフルトランスフォーマー・デコーダアーキテクチャと,集合予測方式で高密度キャプションを生成するキャプションデコーダに基づく。
論文 参考訳(メタデータ) (2023-01-06T13:46:45Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Scan2Cap: Context-aware Dense Captioning in RGB-D Scans [10.688467522949082]
本稿では,コモディティRGB-Dセンサを用いた3Dスキャンにおける高密度キャプションの課題について紹介する。
入力シーン内のオブジェクトを検出し,それらを自然言語で記述する,エンドツーエンドのトレーニング手法であるScan2Capを提案する。
ScanReferデータセットから3Dオブジェクトを効果的にローカライズし,記述することができる。
論文 参考訳(メタデータ) (2020-12-03T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。