論文の概要: 3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with
Transformers
- arxiv url: http://arxiv.org/abs/2110.08861v1
- Date: Sun, 17 Oct 2021 16:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 09:56:44.614209
- Title: 3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with
Transformers
- Title(参考訳): 3d-retr:トランスフォーマーを用いたエンドツーエンド・マルチビュー3d再構成
- Authors: Zai Shi, Zhao Meng, Yiran Xing, Yunpu Ma, Roger Wattenhofer
- Abstract要約: 3D-RETRはTRansformersでエンドツーエンドの3D再構成を行うことができる。
3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。
その後、CNNデコーダがボクセルの特徴を入力として、再構成されたオブジェクトを取得する。
- 参考スコア(独自算出の注目度): 12.238921770499912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D reconstruction aims to reconstruct 3D objects from 2D views. Previous
works for 3D reconstruction mainly focus on feature matching between views or
using CNNs as backbones. Recently, Transformers have been shown effective in
multiple applications of computer vision. However, whether or not Transformers
can be used for 3D reconstruction is still unclear. In this paper, we fill this
gap by proposing 3D-RETR, which is able to perform end-to-end 3D REconstruction
with TRansformers. 3D-RETR first uses a pretrained Transformer to extract
visual features from 2D input images. 3D-RETR then uses another Transformer
Decoder to obtain the voxel features. A CNN Decoder then takes as input the
voxel features to obtain the reconstructed objects. 3D-RETR is capable of 3D
reconstruction from a single view or multiple views. Experimental results on
two datasets show that 3DRETR reaches state-of-the-art performance on 3D
reconstruction. Additional ablation study also demonstrates that 3D-DETR
benefits from using Transformers.
- Abstract(参考訳): 3Dリコンストラクションは、2Dビューから3Dオブジェクトを再構築することを目的としている。
以前の3dリコンストラクションは、主にビュー間の機能マッチングや、cnnをバックボーンとして使用することに重点を置いている。
近年,コンピュータビジョンの複数の応用においてトランスフォーマーが有効であることが示されている。
しかし、トランスフォーマーを3D再構成に使えるかどうかはまだ不明である。
本稿では,TRアンスフォーマを用いたエンドツーエンドの3D再構成が可能な3D-RETRを提案することで,このギャップを埋める。
3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。
3D-RETRは、別のTransformer Decoderを使って、voxel機能を取得する。
その後、cnnデコーダがvoxel特徴の入力を受け取り、再構成されたオブジェクトを取得する。
3D-RETRは、単一のビューまたは複数のビューから3D再構成を行うことができる。
2つのデータセットによる実験結果から、3DRETRが3D再構成における最先端の性能に達することが示された。
さらなるアブレーション研究により、3D-DETR は Transformer の恩恵を受けることが示されている。
関連論文リスト
- TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction [0.565395466029518]
移動窓の注目度に基づくボクセル3次元再構成ネットワークを提案する。
ShapeNetによる実験結果から, 単視点再構成におけるSOTA精度が得られた。
論文 参考訳(メタデータ) (2023-12-05T12:42:37Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Efficient 3D Object Reconstruction using Visual Transformers [4.670344336401625]
我々は3次元オブジェクト再構成における畳み込みの代わりに視覚変換器を使うことにした。
変換器ベースのエンコーダとデコーダを用いて2次元画像から3次元構造を予測し,ベースラインアプローチと同じような精度または優れた精度を実現する。
論文 参考訳(メタデータ) (2023-02-16T18:33:25Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。