論文の概要: Uni3DL: Unified Model for 3D and Language Understanding
- arxiv url: http://arxiv.org/abs/2312.03026v1
- Date: Tue, 5 Dec 2023 08:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:27:37.845343
- Title: Uni3DL: Unified Model for 3D and Language Understanding
- Title(参考訳): Uni3DL: 3Dおよび言語理解のための統一モデル
- Authors: Xiang Li, Jian Ding, Zhaoyang Chen, Mohamed Elhoseiny
- Abstract要約: 3Dおよび言語理解のための統一モデルであるUni3DLを提案する。
Uni3DLは、ポイントクラウド上で直接動作する。
多様な3D視覚言語理解タスクに対して厳格に評価されている。
- 参考スコア(独自算出の注目度): 41.74095171149082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Uni3DL, a unified model for 3D and Language
understanding. Distinct from existing unified vision-language models in 3D
which are limited in task variety and predominantly dependent on projected
multi-view images, Uni3DL operates directly on point clouds. This approach
significantly expands the range of supported tasks in 3D, encompassing both
vision and vision-language tasks in 3D. At the core of Uni3DL, a query
transformer is designed to learn task-agnostic semantic and mask outputs by
attending to 3D visual features, and a task router is employed to selectively
generate task-specific outputs required for diverse tasks. With a unified
architecture, our Uni3DL model enjoys seamless task decomposition and
substantial parameter sharing across tasks. Uni3DL has been rigorously
evaluated across diverse 3D vision-language understanding tasks, including
semantic segmentation, object detection, instance segmentation, visual
grounding, 3D captioning, and text-3D cross-modal retrieval. It demonstrates
performance on par with or surpassing state-of-the-art (SOTA) task-specific
models. We hope our benchmark and Uni3DL model will serve as a solid step to
ease future research in unified models in the realm of 3D and language
understanding. Project page: https://uni3dl.github.io.
- Abstract(参考訳): 本稿では,3Dおよび言語理解のための統一モデルであるUni3DLを提案する。
タスクの多様性に制限があり、投影された多視点画像に依存している既存の統合視覚言語モデルとは異なり、Uni3DLはポイントクラウド上で直接動作する。
このアプローチは、3Dにおける視覚と視覚の両方のタスクを含む、3Dにおけるサポート対象タスクの範囲を大幅に拡大する。
問合せ変換器は,3次元視覚特徴に参画してタスク非依存のセマンティクスとマスク出力を学習するように設計され,タスクルータを用いてタスク固有の出力を選択的に生成する。
統一されたアーキテクチャでは、我々のUni3DLモデルはシームレスなタスク分解とタスク間の実質的なパラメータ共有を楽しみます。
Uni3DLは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、視覚的グラウンドニング、3Dキャプション、テキスト3Dのクロスモーダル検索など、様々な3D視覚言語理解タスクにおいて厳格に評価されている。
これは、最新技術(SOTA)タスク固有のモデルと同等のパフォーマンスを示す。
私たちは、ベンチマークとuni3dlモデルが、3dと言語理解の領域における統一モデルの将来の研究を容易にするための確かなステップになることを期待しています。
プロジェクトページ: https://uni3dl.github.io
関連論文リスト
- A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。