論文の概要: 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
- arxiv url: http://arxiv.org/abs/2308.04352v1
- Date: Tue, 8 Aug 2023 15:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:17:07.558563
- Title: 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
- Title(参考訳): 3D-VisTA:3Dビジョンとテキストアライメントのためのトレーニング済みトランス
- Authors: Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, Qing Li
- Abstract要約: 3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
- 参考スコア(独自算出の注目度): 44.00343134325925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D vision-language grounding (3D-VL) is an emerging field that aims to
connect the 3D physical world with natural language, which is crucial for
achieving embodied intelligence. Current 3D-VL models rely heavily on
sophisticated modules, auxiliary losses, and optimization tricks, which calls
for a simple and unified model. In this paper, we propose 3D-VisTA, a
pre-trained Transformer for 3D Vision and Text Alignment that can be easily
adapted to various downstream tasks. 3D-VisTA simply utilizes self-attention
layers for both single-modal modeling and multi-modal fusion without any
sophisticated task-specific design. To further enhance its performance on 3D-VL
tasks, we construct ScanScribe, the first large-scale 3D scene-text pairs
dataset for 3D-VL pre-training. ScanScribe contains 2,995 RGB-D scans for 1,185
unique indoor scenes originating from ScanNet and 3R-Scan datasets, along with
paired 278K scene descriptions generated from existing 3D-VL tasks, templates,
and GPT-3. 3D-VisTA is pre-trained on ScanScribe via masked language/object
modeling and scene-text matching. It achieves state-of-the-art results on
various 3D-VL tasks, ranging from visual grounding and dense captioning to
question answering and situated reasoning. Moreover, 3D-VisTA demonstrates
superior data efficiency, obtaining strong performance even with limited
annotations during downstream task fine-tuning.
- Abstract(参考訳): 3次元視覚言語接地(3D-VL)は、3次元物理世界と自然言語を結びつけることを目的とした新興分野である。
現在の3D-VLモデルは、洗練されたモジュール、補助的な損失、最適化のトリックに大きく依存している。
本稿では,様々な下流タスクに容易に適応可能な3次元視覚およびテキストアライメントのための事前学習トランスフォーマである3d-vistaを提案する。
3D-VisTAは、単一のモーダルモデリングとマルチモーダル融合の両方に、高度なタスク固有の設計を使わずに自己アテンション層を利用する。
3D-VLタスクの性能をさらに向上するために,3D-VL事前学習のための大規模3DシーンテキストペアデータセットであるScanScribeを構築した。
ScanScribeには、ScanNetと3R-Scanデータセットに由来する1,185の屋内シーンのための2,995のRGB-Dスキャンと、既存の3D-VLタスク、テンプレート、GPT-3から生成された278Kシーン記述が含まれている。
3D-VisTAは、マスク付き言語/オブジェクトモデリングとシーンテキストマッチングによってScanScribe上で事前トレーニングされる。
視覚的接地や密接なキャプション、質問応答、位置推論など、様々な3D-VLタスクの最先端結果が得られる。
さらに、3D-VisTAはデータ効率が優れており、下流タスクの微調整中に限られたアノテーションでも高い性能が得られる。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。