論文の概要: R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2312.02725v1
- Date: Tue, 5 Dec 2023 12:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:43:07.753118
- Title: R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction
- Title(参考訳): R3D-SWIN:シングルビュー3D再構成のための移動ウィンドウアテンション
- Authors: Chenhuan Li, Meihua Xiao, zehuan li and Mengxi Gao
- Abstract要約: 本稿では,ウィンドウアテンションのボクセル3D再構成ネットワークを提案する。
ボクセル3D再構成にシフトウインドウ・アテンションを応用した最初の試みである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformers have performed well in various computer vision
tasks, including voxel 3D reconstruction. However, the windows of the vision
transformer are not multi-scale, and there is no connection between the
windows, which limits the accuracy of voxel 3D reconstruction . Therefore, we
propose a shifted windows attention voxel 3D reconstruction network. To the
best of our knowledge, this is the first work to apply shifted window attention
to voxel 3D reconstruction. Experimental results on ShapeNet verify our method
achieves SOTA accuracy in single-view reconstruction.
- Abstract(参考訳): 近年、視覚トランスフォーマーはvoxel 3dリコンストラクションを含む様々なコンピュータビジョンタスクでうまく機能している。
しかし、視覚変換器の窓はマルチスケールではなく、窓の間には接続がなく、ボクセル3D再構成の精度が制限されている。
そこで我々は,windows attention voxel 3d reconstruction networkを提案する。
私たちの知る限りでは、これはvoxel 3dリコンストラクションにシフトウインドウを応用した最初の作品です。
ShapeNetによる実験結果から, 単視点再構成におけるSOTA精度が得られた。
関連論文リスト
- FineRecon: Depth-aware Feed-forward Network for Detailed 3D
Reconstruction [13.157400338544177]
ポーズ画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を直接推定できることを実証している。
推論に基づく3次元再構成の忠実度を改善するための有効な3つの方法を提案する。
提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-04-04T02:50:29Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - 3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with
Transformers [12.238921770499912]
3D-RETRはTRansformersでエンドツーエンドの3D再構成を行うことができる。
3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。
その後、CNNデコーダがボクセルの特徴を入力として、再構成されたオブジェクトを取得する。
論文 参考訳(メタデータ) (2021-10-17T16:19:15Z) - Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction [57.805334118057665]
文献中の任意のブラックボックス方式のパイプラインに容易に組み込むことができる後処理メッシュ改善ステップであるREFINEを提案する。
テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。
論文 参考訳(メタデータ) (2021-08-23T03:28:47Z) - D-OccNet: Detailed 3D Reconstruction Using Cross-Domain Learning [0.0]
我々は,画像領域とポイント領域のクロスドメイン学習を活用し,占有ネットワークに関する研究を拡大する。
我々のネットワークであるDouble Occupancy Network(D-OccNet)は、3D再構成で捉えた視覚的品質と詳細という点でOccupancy Networksを上回っている。
論文 参考訳(メタデータ) (2021-04-28T16:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。