論文の概要: One Shot 3D Photography
- arxiv url: http://arxiv.org/abs/2008.12298v2
- Date: Tue, 1 Sep 2020 14:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:29:30.517193
- Title: One Shot 3D Photography
- Title(参考訳): ワンショット3d写真
- Authors: Johannes Kopf, Kevin Matzen, Suhib Alsisan, Ocean Quigley, Francis Ge,
Yangming Chong, Josh Patterson, Jan-Michael Frahm, Shu Wu, Matthew Yu,
Peizhao Zhang, Zijian He, Peter Vajda, Ayush Saraf, Michael Cohen
- Abstract要約: 本稿では,3D画像の作成と閲覧を行うエンド・ツー・エンドシステムを提案する。
私たちの3D写真は1枚の写真で撮影され、モバイルデバイスで直接処理されます。
- 参考スコア(独自算出の注目度): 40.83662583097118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D photography is a new medium that allows viewers to more fully experience a
captured moment. In this work, we refer to a 3D photo as one that displays
parallax induced by moving the viewpoint (as opposed to a stereo pair with a
fixed viewpoint). 3D photos are static in time, like traditional photos, but
are displayed with interactive parallax on mobile or desktop screens, as well
as on Virtual Reality devices, where viewing it also includes stereo. We
present an end-to-end system for creating and viewing 3D photos, and the
algorithmic and design choices therein. Our 3D photos are captured in a single
shot and processed directly on a mobile device. The method starts by estimating
depth from the 2D input image using a new monocular depth estimation network
that is optimized for mobile devices. It performs competitively to the
state-of-the-art, but has lower latency and peak memory consumption and uses an
order of magnitude fewer parameters. The resulting depth is lifted to a layered
depth image, and new geometry is synthesized in parallax regions. We synthesize
color texture and structures in the parallax regions as well, using an
inpainting network, also optimized for mobile devices, on the LDI directly.
Finally, we convert the result into a mesh-based representation that can be
efficiently transmitted and rendered even on low-end devices and over poor
network connections. Altogether, the processing takes just a few seconds on a
mobile device, and the result can be instantly viewed and shared. We perform
extensive quantitative evaluation to validate our system and compare its new
components against the current state-of-the-art.
- Abstract(参考訳): 3D写真は、視聴者が撮影瞬間をより完全に体験できる新しい媒体だ。
本研究では,3次元写真は視点を移動させることによって引き起こされる視差(固定された視点を持つステレオ対とは対照的に)を表す。
3D写真は、従来の写真と同様、時間内に静的に表示されるが、モバイルやデスクトップの画面では対話的なパララックスで表示され、バーチャルリアリティーデバイスではステレオも表示される。
本稿では,3D画像の作成と閲覧のためのエンドツーエンドシステムを提案する。
私たちの3D写真は1枚の写真で撮影され、モバイルデバイスで直接処理されます。
この手法は,モバイル機器に最適化された新しい単眼深度推定ネットワークを用いて,2次元入力画像から深度を推定することから始める。
最先端と競合して動作するが、レイテンシとピークメモリの消費が低く、パラメータの桁数は桁違いである。
得られた深さは層状深度画像に引き上げられ、新しい幾何学はパララックス領域で合成される。
パララックス領域の色彩テクスチャと構造を,モバイル機器向けに最適化された塗装ネットワークを用いて直接LDI上に合成する。
最後に、その結果をメッシュベースの表現に変換し、ローエンドデバイスやネットワーク接続の貧弱な上でも効率的に送信およびレンダリングすることができる。
総じて、この処理はモバイルデバイス上で数秒しかかからず、その結果を即座に閲覧して共有することができる。
我々は,我々のシステムを検証するための定量的評価を行い,その新しいコンポーネントを現在の最先端技術と比較する。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - 3D Moments from Near-Duplicate Photos [67.15199743223332]
3D Momentsは、新しい計算写真効果だ。
1枚目から2枚目までのシーンの動きを円滑に補間するビデオを作成する。
本システムは,モーションパララックスとシーンダイナミックスを併用したフォトリアリスティックな時空ビデオを生成する。
論文 参考訳(メタデータ) (2022-05-12T17:56:18Z) - 3D Photography using Context-aware Layered Depth Inpainting [50.66235795163143]
本稿では、1枚のRGB-D入力画像を3D写真に変換する方法を提案する。
学習に基づく着色モデルでは,新しい局所的な色と深度を隠蔽領域に合成する。
結果の3D写真は、モーションパララックスで効率よくレンダリングできる。
論文 参考訳(メタデータ) (2020-04-09T17:59:06Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。