論文の概要: TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes
- arxiv url: http://arxiv.org/abs/2403.19589v2
- Date: Wed, 5 Jun 2024 17:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:42:53.453162
- Title: TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes
- Title(参考訳): TOD3Cap:屋外シーンでの3D映像撮影を目指す
- Authors: Bu Jin, Yupeng Zheng, Pengfei Li, Weize Li, Yuhang Zheng, Sujie Hu, Xinyu Liu, Jinwei Zhu, Zhijie Yan, Haiyang Sun, Kun Zhan, Peng Jia, Xiaoxiao Long, Yilun Chen, Hao Zhao,
- Abstract要約: 3D高密度キャプションは、自然言語による3Dシーンの包括的理解を実現するための基盤となる。
屋外3次元高密度キャプションの新たな課題について紹介する。
我々は,BEV表現を利用してオブジェクトボックスの提案を生成するTOD3Capネットワークを提案する。
また、TOD3Capデータセットを導入し、850シーンから64.3Kの屋外オブジェクトを2.3Mで記述した。
- 参考スコア(独自算出の注目度): 34.74372522579296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning stands as a cornerstone in achieving a comprehensive understanding of 3D scenes through natural language. It has recently witnessed remarkable achievements, particularly in indoor settings. However, the exploration of 3D dense captioning in outdoor scenes is hindered by two major challenges: 1) the domain gap between indoor and outdoor scenes, such as dynamics and sparse visual inputs, makes it difficult to directly adapt existing indoor methods; 2) the lack of data with comprehensive box-caption pair annotations specifically tailored for outdoor scenes. To this end, we introduce the new task of outdoor 3D dense captioning. As input, we assume a LiDAR point cloud and a set of RGB images captured by the panoramic camera rig. The expected output is a set of object boxes with captions. To tackle this task, we propose the TOD3Cap network, which leverages the BEV representation to generate object box proposals and integrates Relation Q-Former with LLaMA-Adapter to generate rich captions for these objects. We also introduce the TOD3Cap dataset, the largest one to our knowledge for 3D dense captioning in outdoor scenes, which contains 2.3M descriptions of 64.3K outdoor objects from 850 scenes. Notably, our TOD3Cap network can effectively localize and caption 3D objects in outdoor scenes, which outperforms baseline methods by a significant margin (+9.6 CiDEr@0.5IoU). Code, data, and models are publicly available at https://github.com/jxbbb/TOD3Cap.
- Abstract(参考訳): 3D高密度キャプションは、自然言語による3Dシーンの包括的理解を実現するための基盤となる。
最近、特に屋内で顕著な成果をみせている。
しかし、屋外シーンにおける3次元高密度キャプションの探索は、2つの大きな課題によって妨げられている。
1) ダイナミックスや疎視的入力などの屋内と屋外のシーン間の領域ギャップは,既存の屋内手法を直接適用することが困難である。
2) アウトドアシーンに適した包括的ボックスキャプションペアアノテーションによるデータ不足。
そこで本研究では,屋外3次元高密度キャプションの新たな課題について紹介する。
入力として,パノラマカメラリグで撮影したLiDAR点雲とRGB画像のセットを仮定する。
期待される出力は、キャプション付きのオブジェクトボックスのセットです。
この課題に対処するために,BEV表現を利用してオブジェクトボックスの提案を生成し,リレーショナルQ-FormerとLLaMA-Adapterを統合するTOD3Capネットワークを提案する。
また、850シーンから64.3Kの屋外オブジェクトを2.3M記述したTOD3Capデータセットも導入した。
特に,私たちのTOD3Capネットワークは,屋外シーンにおける3Dオブジェクトのローカライズとキャプションを効果的に行うことができ,ベースライン手法の精度を著しく向上させる(+9.6 CiDEr@0.5IoU)。
コード、データ、モデルはhttps://github.com/jxbbb/TOD3Capで公開されている。
関連論文リスト
- View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - D3Net: A Speaker-Listener Architecture for Semi-supervised Dense
Captioning and Visual Grounding in RGB-D Scans [12.217810313293883]
D3Netは、エンドツーエンドのニューラルスピーカー-リスナーアーキテクチャで、検出、記述、識別ができる。
本手法は,Scanデータセット上の両方のタスクにおいてSOTA法より優れる。
論文 参考訳(メタデータ) (2021-12-02T19:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。