論文の概要: Attention-based 3D Object Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2008.04738v1
- Date: Tue, 11 Aug 2020 14:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:55:09.865597
- Title: Attention-based 3D Object Reconstruction from a Single Image
- Title(参考訳): 単一画像からの注意に基づく3次元物体再構成
- Authors: Andrey Salvi and Nathan Gavenski and Eduardo Pooch and Felipe
Tasoniero and Rodrigo Barros
- Abstract要約: 本稿では,3次元オブジェクト再構成の最先端手法であるOccupancy Networksを改良することを提案する。
本稿では,ネットワークエンコーダ内の自己注意の概念を適用し,補完的な入力機能を活用する。
我々は、メッシュIoUの5.05%、正規一貫性の0.83%、チャンファー-L1距離の10倍以上でオリジナルの作業を改善することができた。
- 参考スコア(独自算出の注目度): 0.2519906683279153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, learning-based approaches for 3D reconstruction from 2D images have
gained popularity due to its modern applications, e.g., 3D printers, autonomous
robots, self-driving cars, virtual reality, and augmented reality. The computer
vision community has applied a great effort in developing functions to
reconstruct the full 3D geometry of objects and scenes. However, to extract
image features, they rely on convolutional neural networks, which are
ineffective in capturing long-range dependencies. In this paper, we propose to
substantially improve Occupancy Networks, a state-of-the-art method for 3D
object reconstruction. For such we apply the concept of self-attention within
the network's encoder in order to leverage complementary input features rather
than those based on local regions, helping the encoder to extract global
information. With our approach, we were capable of improving the original work
in 5.05% of mesh IoU, 0.83% of Normal Consistency, and more than 10X the
Chamfer-L1 distance. We also perform a qualitative study that shows that our
approach was able to generate much more consistent meshes, confirming its
increased generalization power over the current state-of-the-art.
- Abstract(参考訳): 近年,3dプリンタ,自律型ロボット,自動運転車,仮想現実,拡張現実など,最新の応用により,2d画像からの3d再構成のための学習ベースのアプローチが普及している。
コンピュータビジョンコミュニティは、オブジェクトとシーンの完全な3d幾何学を再構築する機能の開発に多大な努力を払った。
しかし、画像の特徴を抽出するためには、長距離依存を捉えない畳み込みニューラルネットワークに依存している。
本稿では,3次元物体復元のための最先端手法である占有ネットワークの大幅な改善を提案する。
そのため,ネットワークのエンコーダ内に自己アテンションという概念を適用し,局所領域に基づく入力よりも補完的な入力特徴を活用し,エンコーダによるグローバル情報抽出を支援する。
このアプローチでは,メッシュiouの5.5%,正規整合性の0.83%,chamfer-l1距離の10倍以上で元の作業を改善することができた。
我々はまた、我々のアプローチがより一貫性のあるメッシュを生成することができたことを示す定性的な研究を行い、現在の最先端技術に対する一般化能力の増大を確認した。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z) - D-OccNet: Detailed 3D Reconstruction Using Cross-Domain Learning [0.0]
我々は,画像領域とポイント領域のクロスドメイン学習を活用し,占有ネットワークに関する研究を拡大する。
我々のネットワークであるDouble Occupancy Network(D-OccNet)は、3D再構成で捉えた視覚的品質と詳細という点でOccupancy Networksを上回っている。
論文 参考訳(メタデータ) (2021-04-28T16:00:54Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。