論文の概要: Unifying 3D Vision-Language Understanding via Promptable Queries
- arxiv url: http://arxiv.org/abs/2405.11442v1
- Date: Sun, 19 May 2024 04:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:37:55.801110
- Title: Unifying 3D Vision-Language Understanding via Promptable Queries
- Title(参考訳): Promptable Queriesによる3次元視覚言語理解の統一
- Authors: Ziyu Zhu, Zhuofan Zhang, Xiaojian Ma, Xuesong Niu, Yixin Chen, Baoxiong Jia, Zhidong Deng, Siyuan Huang, Qing Li,
- Abstract要約: 3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 39.55438547712157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A unified model for 3D vision-language (3D-VL) understanding is expected to take various scene representations and perform a wide range of tasks in a 3D scene. However, a considerable gap exists between existing methods and such a unified model, due to the independent application of representation and insufficient exploration of 3D multi-task training. In this paper, we introduce PQ3D, a unified model capable of using Promptable Queries to tackle a wide range of 3D-VL tasks, from low-level instance segmentation to high-level reasoning and planning. This is achieved through three key innovations: (1) unifying various 3D scene representations (i.e., voxels, point clouds, multi-view images) into a shared 3D coordinate space by segment-level grouping, (2) an attention-based query decoder for task-specific information retrieval guided by prompts, and (3) universal output heads for different tasks to support multi-task training. Tested across ten diverse 3D-VL datasets, PQ3D demonstrates impressive performance on these tasks, setting new records on most benchmarks. Particularly, PQ3D improves the state-of-the-art on ScanNet200 by 1.8% (AP), ScanRefer by 5.4% (acc@0.5), Multi3DRefer by 11.7% (F1@0.5), and Scan2Cap by 13.4% (CIDEr@0.5). Moreover, PQ3D supports flexible inference with individual or combined forms of available 3D representations, e.g., solely voxel input.
- Abstract(参考訳): 3次元視覚言語(3D-VL)理解のための統一モデルでは,様々なシーン表現を取り入れ,多種多様なタスクを3Dシーンで実行することが期待される。
しかし、3次元マルチタスクトレーニングの独立的な適用と不十分な探索のため、既存の手法とそのような統一モデルとの間には大きなギャップがある。
本稿では,PQ3Dについて紹介する。PQ3Dは,低レベルなインスタンスセグメンテーションから高レベルな推論,計画に至るまで,Promptable Queriesを使用して広範囲な3D-VLタスクに対処できる統一モデルである。
これは,(1) 様々な3次元シーン表現(ボクセル,点雲,マルチビュー画像)をセグメントレベルグルーピングにより共有3次元座標空間に統一すること,(2) プロンプトで案内されるタスク固有情報検索のための注目型クエリデコーダ,(3) マルチタスクトレーニングをサポートするための共通出力ヘッド,の3つの重要なイノベーションによって達成される。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクで素晴らしいパフォーマンスを示し、ほとんどのベンチマークで新しいレコードを設定している。
特に、PQ3DはScanNet200の最先端を1.8%(AP)、ScanReferを5.4%(acc@0.5)、Multi3DReferを11.7%(F1@0.5)、Scan2Capを13.4%(CIDEr@0.5)改善している。
さらに、PQ3Dは、個々のまたは組み合わせた3D表現、例えば、単にボクセル入力による柔軟な推論をサポートする。
関連論文リスト
- Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - Uni3DL: Unified Model for 3D and Language Understanding [41.74095171149082]
3Dおよび言語理解のための統一モデルであるUni3DLを提案する。
Uni3DLは、ポイントクラウド上で直接動作する。
多様な3D視覚言語理解タスクに対して厳格に評価されている。
論文 参考訳(メタデータ) (2023-12-05T08:30:27Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。