論文の概要: Uni3D: Exploring Unified 3D Representation at Scale
- arxiv url: http://arxiv.org/abs/2310.06773v1
- Date: Tue, 10 Oct 2023 16:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:38:13.331286
- Title: Uni3D: Exploring Unified 3D Representation at Scale
- Title(参考訳): Uni3D: 大規模で統一された3D表現を探る
- Authors: Junsheng Zhou, Jinsheng Wang, Baorui Ma, Yu-Shen Liu, Tiejun Huang,
Xinlong Wang
- Abstract要約: 大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
- 参考スコア(独自算出の注目度): 66.26710717073372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up representations for images or text has been extensively
investigated in the past few years and has led to revolutions in learning
vision and language. However, scalable representation for 3D objects and scenes
is relatively unexplored. In this work, we present Uni3D, a 3D foundation model
to explore the unified 3D representation at scale. Uni3D uses a 2D initialized
ViT end-to-end pretrained to align the 3D point cloud features with the
image-text aligned features. Via the simple architecture and pretext task,
Uni3D can leverage abundant 2D pretrained models as initialization and
image-text aligned models as the target, unlocking the great potential of 2D
models and scaling-up strategies to the 3D world. We efficiently scale up Uni3D
to one billion parameters, and set new records on a broad range of 3D tasks,
such as zero-shot classification, few-shot classification, open-world
understanding and part segmentation. We show that the strong Uni3D
representation also enables applications such as 3D painting and retrieval in
the wild. We believe that Uni3D provides a new direction for exploring both
scaling up and efficiency of the representation in 3D domain.
- Abstract(参考訳): 画像やテキストの表現のスケールアップは、ここ数年で広範囲に研究され、ビジョンや言語の学習に革命をもたらした。
しかし、3dオブジェクトとシーンのスケーラブルな表現は、比較的未調査である。
そこで本研究では,大規模に統一された3次元表現を探索する3次元基礎モデル uni3d を提案する。
Uni3Dは、事前にトレーニングされた2D初期化ViTエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
Uni3Dは、シンプルなアーキテクチャとプリテキストタスクによって、豊富な2D事前訓練されたモデルを初期化として、画像-テキスト整列モデルをターゲットとして活用し、2Dモデルの大きな可能性と3D世界へのスケーリング戦略を解き放つ。
我々は、Uni3Dを10億のパラメータに効率的にスケールアップし、ゼロショット分類、少数ショット分類、オープンワールド理解、部分セグメンテーションなど、幅広い3Dタスクに新しいレコードを設定する。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
われわれは、Uni3Dが3Dドメインにおける表現のスケールアップと効率の両面での新しい方向性を提供すると考えている。
関連論文リスト
- Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。
簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。