論文の概要: POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
- arxiv url: http://arxiv.org/abs/2401.09413v1
- Date: Wed, 17 Jan 2024 18:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:02:46.503795
- Title: POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images
- Title(参考訳): POP-3D: 画像からのオープンボキャブラリ3次元活動予測
- Authors: Antonin Vobecky and Oriane Sim\'eoni and David Hurych and Spyros
Gidaris and Andrei Bursuc and Patrick P\'erez and Josef Sivic
- Abstract要約: 入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
- 参考スコア(独自算出の注目度): 32.33170182669095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe an approach to predict open-vocabulary 3D semantic voxel
occupancy map from input 2D images with the objective of enabling 3D grounding,
segmentation and retrieval of free-form language queries. This is a challenging
problem because of the 2D-3D ambiguity and the open-vocabulary nature of the
target tasks, where obtaining annotated training data in 3D is difficult. The
contributions of this work are three-fold. First, we design a new model
architecture for open-vocabulary 3D semantic occupancy prediction. The
architecture consists of a 2D-3D encoder together with occupancy prediction and
3D-language heads. The output is a dense voxel map of 3D grounded language
embeddings enabling a range of open-vocabulary tasks. Second, we develop a
tri-modal self-supervised learning algorithm that leverages three modalities:
(i) images, (ii) language and (iii) LiDAR point clouds, and enables training
the proposed architecture using a strong pre-trained vision-language model
without the need for any 3D manual language annotations. Finally, we
demonstrate quantitatively the strengths of the proposed model on several
open-vocabulary tasks: Zero-shot 3D semantic segmentation using existing
datasets; 3D grounding and retrieval of free-form language queries, using a
small dataset that we propose as an extension of nuScenes. You can find the
project page here https://vobecant.github.io/POP3D.
- Abstract(参考訳): 本稿では,自由形式言語クエリの3次元接地,セグメンテーション,検索を可能にするため,入力2次元画像から開放的3次元意味ボクセル占有マップを予測する手法について述べる。
これは、2D-3Dの曖昧さと、3Dで注釈付きトレーニングデータを取得することの難しさから、難しい問題である。
この作品の貢献は3倍である。
まず、オープンな3Dセマンティック占有予測のための新しいモデルアーキテクチャを設計する。
アーキテクチャは2d-3dエンコーダと占有率予測と3d言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
次に,三様相を利用した自己教師付き学習アルゴリズムを開発した。
(i)画像
(ii)言語・言語
3)LiDARポイントクラウドは、3Dマニュアル言語アノテーションを必要とせずに、強力な事前学習された視覚言語モデルを用いて提案されたアーキテクチャをトレーニングすることができる。
最後に、既存のデータセットを用いたゼロショット3Dセマンティックセマンティックセグメンテーション(Zero-shot 3D semantic segmentation)、nuScenesの拡張として提案する小さなデータセットを用いて、自由形式の言語クエリのグラウンドと検索を行う。
プロジェクトページはhttps://vobecant.github.io/pop3d。
関連論文リスト
- Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。