論文の概要: Efficient 3D Object Reconstruction using Visual Transformers
- arxiv url: http://arxiv.org/abs/2302.08474v1
- Date: Thu, 16 Feb 2023 18:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 13:03:37.454721
- Title: Efficient 3D Object Reconstruction using Visual Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた高能率3次元物体再構成
- Authors: Rohan Agarwal, Wei Zhou, Xiaofeng Wu, Yuhan Li
- Abstract要約: 我々は3次元オブジェクト再構成における畳み込みの代わりに視覚変換器を使うことにした。
変換器ベースのエンコーダとデコーダを用いて2次元画像から3次元構造を予測し,ベースラインアプローチと同じような精度または優れた精度を実現する。
- 参考スコア(独自算出の注目度): 4.670344336401625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing a 3D object from a 2D image is a well-researched vision
problem, with many kinds of deep learning techniques having been tried. Most
commonly, 3D convolutional approaches are used, though previous work has shown
state-of-the-art methods using 2D convolutions that are also significantly more
efficient to train. With the recent rise of transformers for vision tasks,
often outperforming convolutional methods, along with some earlier attempts to
use transformers for 3D object reconstruction, we set out to use visual
transformers in place of convolutions in existing efficient, high-performing
techniques for 3D object reconstruction in order to achieve superior results on
the task. Using a transformer-based encoder and decoder to predict 3D structure
from 2D images, we achieve accuracy similar or superior to the baseline
approach. This study serves as evidence for the potential of visual
transformers in the task of 3D object reconstruction.
- Abstract(参考訳): 2d画像から3dオブジェクトを再構築することは、多くのディープラーニング技術が試みられ、よく研究されたビジョン問題である。
最も一般的には、3次元畳み込みアプローチが用いられるが、以前の研究では2次元畳み込みを用いた最先端の手法が示されている。
近年の視覚タスク用トランスフォーマーの出現により、しばしば畳み込み手法よりも優れるようになり、3次元オブジェクト再構成にトランスフォーマーを使う試みも相まって、既存の3次元オブジェクト再構成において、畳み込みの代わりにビジュアルトランスフォーマーを使用することで、タスクにおいて優れた結果を得ることができた。
2次元画像から3次元構造の予測にトランスフォーマベースのエンコーダとデコーダを用いることで,ベースラインアプローチと同等かそれ以上の精度が得られる。
本研究は3次元物体再構成作業における視覚変換器の可能性を示す証拠となる。
関連論文リスト
- DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction [12.408610403423559]
本稿では,3次元オブジェクト再構成と新しいビュー合成のためのDIG3Dという新しい手法を提案する。
提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。
提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。
論文 参考訳(メタデータ) (2024-04-25T04:18:59Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - 3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with
Transformers [12.238921770499912]
3D-RETRはTRansformersでエンドツーエンドの3D再構成を行うことができる。
3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。
その後、CNNデコーダがボクセルの特徴を入力として、再構成されたオブジェクトを取得する。
論文 参考訳(メタデータ) (2021-10-17T16:19:15Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。