論文の概要: Efficient 3D Object Reconstruction using Visual Transformers
- arxiv url: http://arxiv.org/abs/2302.08474v1
- Date: Thu, 16 Feb 2023 18:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 13:03:37.454721
- Title: Efficient 3D Object Reconstruction using Visual Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた高能率3次元物体再構成
- Authors: Rohan Agarwal, Wei Zhou, Xiaofeng Wu, Yuhan Li
- Abstract要約: 我々は3次元オブジェクト再構成における畳み込みの代わりに視覚変換器を使うことにした。
変換器ベースのエンコーダとデコーダを用いて2次元画像から3次元構造を予測し,ベースラインアプローチと同じような精度または優れた精度を実現する。
- 参考スコア(独自算出の注目度): 4.670344336401625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing a 3D object from a 2D image is a well-researched vision
problem, with many kinds of deep learning techniques having been tried. Most
commonly, 3D convolutional approaches are used, though previous work has shown
state-of-the-art methods using 2D convolutions that are also significantly more
efficient to train. With the recent rise of transformers for vision tasks,
often outperforming convolutional methods, along with some earlier attempts to
use transformers for 3D object reconstruction, we set out to use visual
transformers in place of convolutions in existing efficient, high-performing
techniques for 3D object reconstruction in order to achieve superior results on
the task. Using a transformer-based encoder and decoder to predict 3D structure
from 2D images, we achieve accuracy similar or superior to the baseline
approach. This study serves as evidence for the potential of visual
transformers in the task of 3D object reconstruction.
- Abstract(参考訳): 2d画像から3dオブジェクトを再構築することは、多くのディープラーニング技術が試みられ、よく研究されたビジョン問題である。
最も一般的には、3次元畳み込みアプローチが用いられるが、以前の研究では2次元畳み込みを用いた最先端の手法が示されている。
近年の視覚タスク用トランスフォーマーの出現により、しばしば畳み込み手法よりも優れるようになり、3次元オブジェクト再構成にトランスフォーマーを使う試みも相まって、既存の3次元オブジェクト再構成において、畳み込みの代わりにビジュアルトランスフォーマーを使用することで、タスクにおいて優れた結果を得ることができた。
2次元画像から3次元構造の予測にトランスフォーマベースのエンコーダとデコーダを用いることで,ベースラインアプローチと同等かそれ以上の精度が得られる。
本研究は3次元物体再構成作業における視覚変換器の可能性を示す証拠となる。
関連論文リスト
- IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - Global-correlated 3D-decoupling Transformer for Clothed Avatar
Reconstruction [39.562900308052846]
本稿では,モノクロ画像から衣料アバターを再構成するトランスフォーマーをGTA(Global-correlated 3D-decoupling Transformer for Avatar reconstruction)として提案する。
提案手法は,グローバルな関連画像特徴をキャプチャするエンコーダとしてビジョントランスフォーマーモデルを活用することで,トランスフォーマアーキテクチャを活用する。
提案手法は形状とテクスチャ再構築の両面において最先端の手法より優れており,挑戦的なポーズやゆるい衣服に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2023-09-24T02:10:25Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - Adapting Pre-trained Vision Transformers from 2D to 3D through Weight
Inflation Improves Medical Image Segmentation [19.693778706169752]
我々は2Dから3Dに事前訓練されたトランスフォーマーを適応させるために重量インフレーション戦略を使用し、トランスファーラーニングと深度情報の両方の利点を維持している。
提案手法は,幅広い3次元医用画像データセットを対象とした最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-02-08T19:38:13Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - 3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with
Transformers [12.238921770499912]
3D-RETRはTRansformersでエンドツーエンドの3D再構成を行うことができる。
3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。
その後、CNNデコーダがボクセルの特徴を入力として、再構成されたオブジェクトを取得する。
論文 参考訳(メタデータ) (2021-10-17T16:19:15Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。