論文の概要: 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
- arxiv url: http://arxiv.org/abs/2308.04352v1
- Date: Tue, 8 Aug 2023 15:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:17:07.558563
- Title: 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
- Title(参考訳): 3D-VisTA:3Dビジョンとテキストアライメントのためのトレーニング済みトランス
- Authors: Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, Qing Li
- Abstract要約: 3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
- 参考スコア(独自算出の注目度): 44.00343134325925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D vision-language grounding (3D-VL) is an emerging field that aims to
connect the 3D physical world with natural language, which is crucial for
achieving embodied intelligence. Current 3D-VL models rely heavily on
sophisticated modules, auxiliary losses, and optimization tricks, which calls
for a simple and unified model. In this paper, we propose 3D-VisTA, a
pre-trained Transformer for 3D Vision and Text Alignment that can be easily
adapted to various downstream tasks. 3D-VisTA simply utilizes self-attention
layers for both single-modal modeling and multi-modal fusion without any
sophisticated task-specific design. To further enhance its performance on 3D-VL
tasks, we construct ScanScribe, the first large-scale 3D scene-text pairs
dataset for 3D-VL pre-training. ScanScribe contains 2,995 RGB-D scans for 1,185
unique indoor scenes originating from ScanNet and 3R-Scan datasets, along with
paired 278K scene descriptions generated from existing 3D-VL tasks, templates,
and GPT-3. 3D-VisTA is pre-trained on ScanScribe via masked language/object
modeling and scene-text matching. It achieves state-of-the-art results on
various 3D-VL tasks, ranging from visual grounding and dense captioning to
question answering and situated reasoning. Moreover, 3D-VisTA demonstrates
superior data efficiency, obtaining strong performance even with limited
annotations during downstream task fine-tuning.
- Abstract(参考訳): 3次元視覚言語接地(3D-VL)は、3次元物理世界と自然言語を結びつけることを目的とした新興分野である。
現在の3D-VLモデルは、洗練されたモジュール、補助的な損失、最適化のトリックに大きく依存している。
本稿では,様々な下流タスクに容易に適応可能な3次元視覚およびテキストアライメントのための事前学習トランスフォーマである3d-vistaを提案する。
3D-VisTAは、単一のモーダルモデリングとマルチモーダル融合の両方に、高度なタスク固有の設計を使わずに自己アテンション層を利用する。
3D-VLタスクの性能をさらに向上するために,3D-VL事前学習のための大規模3DシーンテキストペアデータセットであるScanScribeを構築した。
ScanScribeには、ScanNetと3R-Scanデータセットに由来する1,185の屋内シーンのための2,995のRGB-Dスキャンと、既存の3D-VLタスク、テンプレート、GPT-3から生成された278Kシーン記述が含まれている。
3D-VisTAは、マスク付き言語/オブジェクトモデリングとシーンテキストマッチングによってScanScribe上で事前トレーニングされる。
視覚的接地や密接なキャプション、質問応答、位置推論など、様々な3D-VLタスクの最先端結果が得られる。
さらに、3D-VisTAはデータ効率が優れており、下流タスクの微調整中に限られたアノテーションでも高い性能が得られる。
関連論文リスト
- Weakly-Supervised 3D Visual Grounding based on Visual Linguistic
Alignment [28.20485007260061]
既存の3Dビジュアルグラウンドのアプローチでは、テキストクエリのバウンディングボックスアノテーションがかなり必要になります。
textbfVisual textbfLinguistic textbfAlignment に基づいたtextbf3Dビジュアルグラウンドの弱教師付きアプローチである textbf3D-VLA を提案する。
我々の3D-VLAは、テキストと2D画像間のセマンティクスの整合において、現在の大規模視覚言語モデル(VLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。