論文の概要: Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?
- arxiv url: http://arxiv.org/abs/2209.07026v2
- Date: Sun, 18 Sep 2022 00:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:53:31.270839
- Title: Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?
- Title(参考訳): 2次元視覚トランスフォーマーから3次元視覚タスクを解決できるか?
- Authors: Yi Wang and Zhiwen Fan and Tianlong Chen and Hehe Fan and Zhangyang
Wang
- Abstract要約: 視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
- 参考スコア(独自算出の注目度): 111.11502241431286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have proven to be effective, in solving 2D image
understanding tasks by training over large-scale image datasets; and meanwhile
as a somehow separate track, in modeling the 3D visual world too such as voxels
or point clouds. However, with the growing hope that transformers can become
the "universal" modeling tool for heterogeneous data, ViTs for 2D and 3D tasks
have so far adopted vastly different architecture designs that are hardly
transferable. That invites an (over-)ambitious question: can we close the gap
between the 2D and 3D ViT architectures? As a piloting study, this paper
demonstrates the appealing promise to understand the 3D visual world, using a
standard 2D ViT architecture, with only minimal customization at the input and
output levels without redesigning the pipeline. To build a 3D ViT from its 2D
sibling, we "inflate" the patch embedding and token sequence, accompanied with
new positional encoding mechanisms designed to match the 3D data geometry. The
resultant "minimalist" 3D ViT, named Simple3D-Former, performs surprisingly
robustly on popular 3D tasks such as object classification, point cloud
segmentation and indoor scene detection, compared to highly customized
3D-specific designs. It can hence act as a strong baseline for new 3D ViTs.
Moreover, we note that pursing a unified 2D-3D ViT design has practical
relevance besides just scientific curiosity. Specifically, we demonstrate that
Simple3D-Former naturally enables to exploit the wealth of pre-trained weights
from large-scale realistic 2D images (e.g., ImageNet), which can be plugged in
to enhancing the 3D task performance "for free".
- Abstract(参考訳): 視覚トランスフォーマー(vits)は、大規模な画像データセット上でトレーニングすることで2次元画像理解タスクを解決するのに効果的であることが証明されている。
しかし、トランスフォーマーが異種データのための"ユニバーサル"モデリングツールになり得るという期待が高まっているため、2Dおよび3Dタスク用のViTは、これまでほとんど転送不可能な全く異なるアーキテクチャ設計を採用してきた。
2Dと3D ViTアーキテクチャ間のギャップを埋めることができますか?
本稿では, パイプラインを再設計することなく, 入力レベルと出力レベルの最小限のカスタマイズしか行わず, 標準的な2D ViTアーキテクチャを用いて, 3次元視覚世界を理解するという魅力的な約束を示す。
2dの兄弟から3d vitを構築するために、パッチの埋め込みとトークンシーケンスを「膨らませる」とともに、3dデータ幾何にマッチするように設計された新しい位置符号化機構を伴います。
その結果、simple3d-formerと名付けられたminimalist 3d vitは、高度にカスタマイズされた3d特有のデザインと比較して、オブジェクト分類、ポイントクラウドセグメンテーション、屋内シーン検出といった一般的な3dタスクに対して驚くほど堅牢に動作します。
そのため、新しい3D ViTの強力なベースラインとして機能する。
さらに, 統一型2D-3D ViTの設計は, 科学的好奇心だけでなく, 実用的関連性も指摘する。
具体的には、Simple3D-Formerは、大規模な現実的な2D画像(例えば、ImageNet)からトレーニング済みの重量の富を自然に利用することができ、それによって3Dタスクのパフォーマンスを「無償で」向上させることができることを実証する。
関連論文リスト
- Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - M3D-VTON: A Monocular-to-3D Virtual Try-On Network [62.77413639627565]
既存の3D仮想試行法は主に注釈付き3D人体形状と衣服テンプレートに依存している。
本稿では,2次元と3次元の両方のアプローチの利点を生かした,モノクロから3次元仮想トライオンネットワーク(M3D-VTON)を提案する。
論文 参考訳(メタデータ) (2021-08-11T10:05:17Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。