# (参考訳) 近接重複写真からの3次元モーメント [全文訳有]

3D Moments from Near-Duplicate Photos ( http://arxiv.org/abs/2205.06255v1 )

ライセンス: CC BY 4.0
Qianqian Wang, Zhengqi Li, David Salesin, Noah Snavely, Brian Curless, Janne Kontkanen(参考訳) 我々は新しい計算写真効果である3D Momentsを紹介する。 入力として、重複に近い2つの写真、すなわち、類似の視点から移動する被写体の写真が、人々の写真コレクションで一般的です。 出力として、第1の写真から第2写真までのシーンの動きをスムーズに補間する映像を作成し、同時に3dの感覚を高める視差付きカメラモーションを生成する。 この効果を達成するために,シーンフローを付加した特徴ベース階層深度画像のペアとしてシーンを表現した。 この表現は、カメラ視点の独立制御とともに、モーション補間を可能にする。 本システムでは,モーションパララックスとシーンダイナミクスを備えたフォトリアリスティックな時空映像を生成できると同時に,オリジナルビューに隠された領域を再現する。 我々は,公開データセットや画像のベースラインよりも優れた性能を示す広範な実験を行った。 プロジェクトページ: https://3d-moments.g ithub.io/

We introduce 3D Moments, a new computational photography effect. As input we take a pair of near-duplicate photos, i.e., photos of moving subjects from similar viewpoints, common in people's photo collections. As output, we produce a video that smoothly interpolates the scene motion from the first photo to the second, while also producing camera motion with parallax that gives a heightened sense of 3D. To achieve this effect, we represent the scene as a pair of feature-based layered depth images augmented with scene flow. This representation enables motion interpolation along with independent control of the camera viewpoint. Our system produces photorealistic space-time videos with motion parallax and scene dynamics, while plausibly recovering regions occluded in the original views. We conduct extensive experiments demonstrating superior performance over baselines on public datasets and in-the-wild photos. Project page: https://3d-moments.g ithub.io/
公開日: Thu, 12 May 2022 17:56:18 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
3D Moments from Near-Duplicate Photos 近接重複写真からの3次元モーメント 0.62
Qianqian Wang1,2 Zhengqi Li1 David Salesin1 Noah Snavely1,2 Brian Curless1,3 Qianqian Wang1,2 Zhengqi Li1 David Salesin1 Noah Snavely1,2 Brian Curless1,3 0.29
Janne Kontkanen1 Janne Kontkanen1 0.44
1Google Research 2Cornell Tech, Cornell University 3University of Washington 1Google Research 2Cornell Tech, Cornell University 3University of Washington 0.46
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 5 5 2 6 0 1 v 5 5 2 6 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Figure 1. People often take many near-duplicate photos in an attempt to capture the perfect expression. 図1に示す。 完璧な表現を撮るために、人々はしばしば重複に近い写真を撮ります。 0.66
Given a pair of these photos, taken from nearby viewpoints (left), our proposed approach brings these photos to life as 3D Moments, producing space-time videos with cinematic camera motions and interpolated scene motion (right). この2枚の写真が近距離から撮影され(左)、提案されたアプローチは、これらの写真を3Dモーメントとして生かし、撮影カメラモーションと補間されたシーンモーション(右)を備えた時空ビデオを生成する。 0.67
Please refer to the supplementary material to see the videos. ビデオを見るには補足資料を参照してください。 0.70
Abstract We introduce 3D Moments, a new computational photography effect. 概要 我々は新しい計算写真効果である3D Momentsを紹介する。 0.57
As input we take a pair of near-duplicate photos, i.e., photos of moving subjects from similar viewpoints, common in people’s photo collections. 入力として、重複に近い2つの写真、すなわち、同じ視点から移動する被写体の写真が、人々の写真コレクションで一般的です。 0.67
As output, we produce a video that smoothly interpolates the scene motion from the first photo to the second, while also producing camera motion with parallax that gives a heightened sense of 3D. 出力として、第1の写真から第2写真までのシーンの動きをスムーズに補間する映像を作成し、同時に3dの感覚を高める視差付きカメラモーションを生成する。 0.72
To achieve this effect, we represent the scene as a pair of feature-based layered depth images augmented with scene flow. この効果を達成するために,シーンフローを付加した特徴ベース階層深度画像のペアとしてシーンを表現した。 0.67
This representation enables motion interpolation along with independent control of the camera viewpoint. この表現は、カメラ視点の独立制御とともに、モーション補間を可能にする。 0.62
Our system produces photorealistic space-time videos with motion parallax and scene dynamics, while plausibly recovering regions occluded in the original views. 本システムでは,モーションパララックスとシーンダイナミクスを備えたフォトリアリスティックな時空映像を生成できると同時に,オリジナルビューに隠された領域を再現する。 0.58
We conduct extensive experiments demonstrating superior performance over baselines on public datasets and in-the-wild photos. 我々は,公開データセットや画像のベースラインよりも優れた性能を示す広範な実験を行った。 0.64
Project page: https://3d-moments.g ithub.io/. プロジェクトページ: https://3d-moments.g ithub.io/ 0.53
1. Introduction Digital photography enables us to take scores of photos in order to capture just the right moment. はじめに デジタル写真は、正しい瞬間を捉えるために、写真のスコアを取ることができます。 0.54
In fact, we often end up with many near-duplicate photos in our image collections 実際、イメージコレクションには、しばしば重複に近い写真がたくさん含まれます。 0.73
as we try to capture the best facial expression of a family member, or the most memorable part of an action. 家族の最高の表情を捉えようとするとき、または行動の最も記憶に残る部分をつかもうとします。 0.62
These near-duplicate photos end up just lying around in digital storage, unviewed. ほぼ重複した写真は、デジタルストレージの中に横たわるだけで、見当たらない。 0.55
In this paper, we aim to utilize such near-duplicate photos to create a compelling new kind of 3D photo enlivened with animation. 本稿では,このような重複に近い写真を用いて,アニメーションを生かした魅力的な3d写真を作成することを目的とする。 0.68
We call this new effect 3D Moments: given a pair of near-duplicate photos depicting a dynamic scene from nearby (perhaps indistinguishable) viewpoints, such as the images in Fig 1 (left), our goal is to simultaneously enable cinematic camera motion with 3D parallax (including novel, extrapolated viewpoints) while faithfully interpolating scene motion to synthesize short space-time videos like the one shown in Fig 1 (right). 図1(左)の画像のように、近くの(おそらく区別がつかない)視点からダイナミックなシーンを描く2対の写真が与えられたとき、我々は、図1(右)に示すような短い時空動画を忠実に補間しながら、3dパララックス(新規な、外挿された視点を含む)で同時に映画カメラの動きを可能にすることを目標としている。 0.76
3D Moments combine both camera and scene motion in a compelling way, but involve very challenging vision problems: we must jointly infer 3D geometry, scene dynamics, and content that becomes newly disoccluded during the animation. 3dモーメントは、カメラとシーンモーションの両方を説得力のある方法で結合するが、非常に困難なビジョンの問題を伴う。
訳抜け防止モード: 3dモーメントは、カメラとシーンモーションの両方を説得力のある方法で結合するが、非常に難しいビジョンの問題を伴う :アニメーション中に新たに切り離される3次元幾何学,シーンダイナミクス,コンテントを共同で推測する必要がある。
Despite great progress towards each of these individual problems, tackling all of them jointly is non-trivial, especially with image pairs with unknown camera poses as input. これらの個々の問題に対する大きな進歩にもかかわらず、これら全てを共同で扱うことは、特に未知のカメラのポーズを入力として持つイメージペアでは、簡単ではない。
訳抜け防止モード: これらの個々の問題に対して大きな進展があったにもかかわらず。 これら全てを共同で 特に未知のカメラポーズのイメージペアを入力として使用する場合。
NeRF-based view synthesis methods for dynamic scenes [15,27,28,49] require many images with known camera poses. ダイナミックシーン [15,27,28,49] のためのNeRFに基づくビュー合成手法は、既知のカメラポーズを持つ多くの画像を必要とする。 0.53
Single-photo view synthesis methods (sometimes called 3D Photos or 3D Ken Burns [11, 25, 38]) can create 3D写真や3D Ken Burns[11,25,38]などと呼ばれる1枚のビュー合成法が作れる 0.79
Near-duplicatephotos Space-timevideos 近接重複フォト空間時間ビデオ 0.17
animated camera paths from a single photo, but cannot represent moving people or objects. 1枚の写真から カメラの経路をアニメーションするが 動く人や物体を表現できない 0.74
Frame interpolation can create smooth animations from image pairs, but only in 2D. フレーム補間は、イメージペアからスムーズなアニメーションを生成することができるが、2Dのみである。 0.63
Furthermore, naively applying view synthesis and frame interpolation methods sequentially results in temporally inconsistent, unrealistic animations. さらに、視覚合成とフレーム補間を経時的に適用することで、時間的に一貫性のない非現実的なアニメーションが得られる。 0.52
To address these challenges, we propose a novel approach for creating 3D Moments by explicitly modeling time-varying geometry and appearance from two uncalibrated, near-duplicate photos. これらの課題に対処するため,我々は,時間変化の幾何と2枚の非共役写真からの出現を明示的にモデル化して3次元モーメントを作成する新しい手法を提案する。 0.58
The key to our approach is to represent the scene as a pair of feature-based layered depth images (LDIs) augmented with scene flows. 我々のアプローチの鍵は、シーンをシーンフローを付加した特徴に基づく層状深度画像(LDI)のペアとして表現することである。 0.71
We build this representation by first transforming the input photos into a pair of color LDIs, with inpainted color and depth for occluded regions. この表現は、まず入力された写真を1対のカラーLDIに変換し、色と奥行きを塗布した。
訳抜け防止モード: 私たちはまずこの表現を構築します 入力された写真は、色と奥行きを塗った一対のLDIに変換する。
We then extract features for each layer with a neural network to create the feature LDIs. 次に,ニューラルネットワークを用いて各層の特徴抽出を行い,特徴量ldisを作成する。 0.75
In addition, we compute optical flow between the input images and combine it with the depth layers to estimate scene flow between the LDIs. さらに、入力画像間の光フローを計算し、深度層と組み合わせ、LDI間のシーンフローを推定する。
訳抜け防止モード: さらに、入力画像間の光の流れを計算する。 深さの層と組み合わせることで LDI間のシーンフローを推定する。
To render a novel view at a novel time, we lift these feature LDIs into a pair of 3D point clouds, and employ a depth-aware, bidirectional splatting and rendering module that combines the splatted features from both directions. 新たなビューを新規にレンダリングするために、これらの特徴 LDI を一対の3次元点雲に持ち上げ、両方向から分割した特徴を組み合わせた深度認識、双方向スプレイティングおよびレンダリングモジュールを使用する。 0.78
We extensively test our method on both public multi-view dynamic scene datasets and in-the-wild photos in terms of rendering quality, and demonstrate superior performance compared to state-of-the-art baselines. 本手法は,公開マルチビュー動的シーンデータセットと実写写真の両方において,レンダリング品質の観点から広範囲にテストを行い,最先端のベースラインと比較して優れた性能を示す。 0.66
In summary, our main contributions include: (1) the new task of creating 3D Moments from near-duplicate photos of dynamic scenes, and (2) a new representation based on feature LDIs augmented with scene flows, and a model that can be trained for creating 3D Moments. まとめると、1)ダイナミックなシーンのほぼ重複した写真から3Dモーメントを作成するための新しいタスク、(2)シーンフローを付加した特徴LDIに基づく新しい表現、および、3Dモーメントを作成するための訓練可能なモデルである。 0.78
2. Related work Our work builds on methods for few-shot view synthesis, 2. 関連作品 我々の研究は、数ショットビュー合成の方法に基づいている。 0.53
frame interpolation and space-time view synthesis. フレーム補間と時空間ビュー合成。 0.79
View synthesis from one or two views. 1つか2つのビューからのビュー合成。 0.63
Novel view synthesis aims to reconstruct unseen viewpoints from a set of input 2D images. 新しいビュー合成は、入力された2D画像の集合から見えない視点を再構築することを目的としている。
訳抜け防止モード: 新しい視点合成を目指して 入力された2D画像の集合から見えない視点を再構成する。
Recent neural rendering methods achieve impressive synthesis results [17, 20, 43, 44, 47, 54], but typically assume many views as input and thus do not suit our task. 最近のニューラルレンダリング手法では、印象的な合成結果(17, 20, 43, 44, 47, 54]が得られたが、一般的に多くのビューを入力と仮定し、タスクに合わない。 0.68
We focus here on methods that take just one or two views. ここでは、1つか2つのビューしか持たないメソッドに注目します。 0.53
Many single-view synthesis methods involve estimating dense monocular depths and filling in occluded regions [7, 11, 14, 25, 34, 38, 48], while others seek to directly regress to a scene representation in a single step [30, 35, 45, 46, 53]. 多くの単眼合成法は、密集した単眼深度を推定し、オクルード領域(7,11,14,25,34,38,48 ]を充填することを含むが、他のものは1ステップ[30,35,45,46,46,53]でシーン表現を直接後退させようとする。
訳抜け防止モード: 多くの単一視点合成法では、密集した単眼深度を推定する。 閉塞領域[7,11,14]を満たします 25,34,38,48],その他は1ステップ[30]でシーン表現に直接回帰しようとする。 35 , 45 , 46 , 53 ] .
We draw on ideas from several works in this vein: SynSin learns a feature 3D point cloud for each input image and projects it to the target view where the missing regions are inpainted [48]. SynSinは入力画像ごとに特徴3Dポイントクラウドを学習し、欠落した領域が塗装されたターゲットビューに投影する[48]。
訳抜け防止モード: 私たちはこの脈のいくつかの作品からアイデアを描きます SynSinは入力画像毎に特徴3次元点雲を学習する 行方不明の領域が塗装されたターゲットビューに投影する[48 ]。
3D Photo [38] instead creates a Layered Depth Image (LDI) and inpaints the color and depth of the occluded region in a spatial context-aware manner. 3Dフォト[38]は、代わりに層状深度画像(LDI)を作成し、空間的コンテキストに配慮して、閉塞領域の色と深さを描き出す。 0.80
We build on both methods but extend to the case of dynamic scenes. 両方の手法で構築するが、動的なシーンに拡張する。 0.59
Like our method, some prior view synthesis methods operate on two views. 我々の方法と同様に、いくつかの先行ビュー合成法は2つのビューで動作する。 0.55
For instance, Stereo Magnification [56] and related work [40] take two narrow-baseline stereo images and predict a multi-plane image that enables real-time novel view synthesis. 例えば、Stereo Magnification [56] と関連する作業 [40] は、2つの狭いベースラインステレオ画像を取得し、リアルタイムの新規ビュー合成を可能にするマルチプレーン画像を予測する。 0.69
However, unlike our approach, these methods assume that there is some parallax from camera motion, and again can only model static scenes, not ones where there is scene motion between the two input views. しかし,我々のアプローチとは異なり,これらの手法ではカメラの動作にはパララックスがあり,また静的なシーンのみをモデル化できると仮定している。
訳抜け防止モード: しかし、我々のアプローチとは異なり、これらの手法はカメラの動きからパララックスが存在すると仮定する。 静的なシーンしかモデル化できません 2つの入力ビューの間に シーンの動きがある。
Frame interpolation. In contrast to 3D view synthesis, temporal frame interpolation creates sequences of in-between frames from two input images. フレーム補間。 3次元ビュー合成とは対照的に、時間フレーム補間は2つの入力画像からフレーム間のシーケンスを生成する。 0.70
Frame interpolation methods do not distinguish between camera and scene motion: all object motions are interpolated in 2D image space. フレーム補間法はカメラとシーンの動きを区別しない:全ての物体の動きは2次元画像空間で補間される。 0.80
Moreover, most frame interpolators assume a linear motion model [2, 6, 8, 12, 21–24, 26, 39] although some recent works consider quadratic motion [18, 50]. さらに、ほとんどのフレーム補間器は線形運動モデル [2, 6, 8, 12, 21–24, 26 39] を仮定しているが、最近の研究では二次運動 [18, 50] を考えるものもある。 0.71
Most of the interpolators use image warping with optical flow, although as a notable exception, Niklaus et al [23, 24] synthesize intermediate frames by blending the inputs with kernels predicted by a neural network. ほとんどの補間器は、光学的流れを伴うイメージワープを用いるが、例外として、Niklaus et al [23, 24]は、入力をニューラルネットワークによって予測されたカーネルとブレンドすることによって中間フレームを合成する。 0.70
However, frame interpolation alone cannot generate 3D Moments, since it does not recover the 3D geometry or allow control over camera motion in 3D. しかし、フレーム補間だけでは3dジオメトリの復元や3dでのカメラモーションの制御ができないため、3dモーメントを生成できない。 0.77
Space-time view synthesis. A number of methods have sought to synthesize novel views for dynamic scenes in both space and time by modeling time-varying 3D geometry and appearance. 時空ビュー合成。 多くの手法は、時間変化する3次元形状と外観をモデル化することで、空間と時間の両方でダイナミックなシーンの新しいビューを合成しようと試みている。 0.46
Many methods require synchronized multi-view videos as inputs, and thus do not apply to in-the-wild photos [1, 3, 4, 13, 41, 57]. 多くの方法は、入力として同期されたマルチビュービデオを必要としており、そのため、画像(1, 3, 4, 13, 41, 57)には適用されない。
訳抜け防止モード: 多くのメソッドは、シンクロナイズドマルチビュービデオを入力として要求する。 in - ワイルドな写真[1]には適用できません。 3 , 4 , 13 , 41 , 57 ] .
Recently, several neural rendering approaches [15,27–29,49,52] have shown promising results on space-time view synthesis from monocular dynamic videos. 近年、複数のニューラルレンダリングアプローチ(15,27–29,49,52]が、単眼ダイナミックビデオからの時空ビュー合成において有望な結果を示している。 0.52
To interpolate both viewpoints and time, recent works either directly interpolate learned latent codes [27, 28], or apply splatting with estimated 3D scene flow fields [15]. 視点と時間の両方を補間するために、学習済みの潜伏符号 [27, 28]を直接補間するか、推定3次元シーンフロー場 [15] でスプラッティングを適用する。
訳抜け防止モード: 視点と時間の両方を補間する 最近の研究は学習した潜伏符号を直接解釈する[27, 28]。 あるいは、推定3Dシーンフローフィールドでスプラッティングを適用する[15 ]。
However, these methods require densely sampled input views with accurate camera poses, which are unavailable for our two-image setting. しかし、これらの方法では、正確なカメラポーズを持つ入力ビューを濃密にサンプリングする必要があります。 0.59
Moreover, none of them explicitly inpaint unseen regions. さらに、これらの領域は目立たない領域である。 0.53
3. Method 3.1. 3. メソッド3.1。 0.50
Problem statement and method overview 問題ステートメントと方法概要 0.63
The input to our system is a pair of images (I0, I1) of a dynamic scene taken at nearby times and camera viewpoints. 本システムへの入力は,近隣の時間とカメラの視点で撮影されたダイナミックシーンのイメージ(I0,I1)である。 0.80
For tractable motion interpolation, we assume that motion between I0 and I1 is roughly within the operating range of a modern optical flow estimator. 移動可能な運動補間については、i0 と i1 の運動は現代の光流推定器の動作範囲内にあると仮定する。
訳抜け防止モード: 牽引可能な運動補間には I0とI1の間の運動は、現代の光学フロー推定器の動作範囲内にある。
Our goal is to create 3D Moments by independently controlling the camera viewpoint while simultaneously interpolating scene motion to render arbitrary nearby novel views at arbitrary intermediate times t ∈ [0, 1]. 我々のゴールは、カメラの視点を独立に制御し、同時にシーンの動きを補間し、任意の中間時間 t ∈ [0, 1] で任意の新しいビューを描画することである。 0.65
Our output is a space-time video with cinematic camera motions and interpolated scene motion. 我々の出力は、撮影カメラモーションと補間されたシーンモーションを備えた時空ビデオである。 0.57
To this end, we propose a new framework that enables efficient and photorealistic space-time novel view synthesis この目的のために, 効率良く, フォトリアリスティックな時空新規ビュー合成を実現する新しい枠組みを提案する。 0.64
Figure 2. Overview. Given near-duplicate photos (I0, I1), we align them with a homography and predict a dense depth map for each photo. 図2。 概要 ほぼ重複した写真(I0,I1)が与えられると、それらをホモグラフィーで整列し、各写真の深度マップを予測する。 0.60
Each RGBD image is then converted to a color LDI, with occluded regions filled by depth-aware inpainting. それぞれのrgbdイメージはカラーldiに変換され、奥行きを認識できるインペインティングで囲まれた領域が満たされる。 0.60
A 2D feature extractor is applied to each color layer of the inpainted LDIs to obtain feature layers, resulting in feature LDIs (F0,F1), where colors in the inpainted LDIs have been replaced with features. 塗膜LDIの各色層に2D特徴抽出器を適用して特徴層を得ると、塗膜LDIの色を特徴層に置き換える特徴層(F0,F1)が得られる。
訳抜け防止モード: 塗布されたLDIの各色層に2次元特徴抽出器を適用する 特徴層を得るのです 特徴 LDI (F0,F1 ) 塗装されたLDIの色は、機能に置き換えられた。
To model scene motion, we compute the scene flow of each pixel in the LDIs using the predicted depths and optical flows between the two input images. シーンの動きをモデル化するために,LDIにおける各画素のシーンフローを,2つの入力画像間の予測深度と光フローを用いて計算する。 0.79
To render a novel view at intermediate time t, we lift the feature LDIs to a pair of 3D point clouds (P0, P1) and bidirectionally move points along their scene flows to time t. 中間時間tで新しいビューをレンダリングするために,特徴LDIを一対の3D点雲(P0,P1)に上げ,そのシーンに沿った点を時間tに双方向に移動させる。 0.75
We then project and splat these 3D feature points to form forward and backward 2D feature maps (from P0 and P1, respectively) and their corresponding depth maps. 次に、これらの3D特徴点を投影し、プロジェクションし、P0とP1からそれぞれ前方と後方の2D特徴写像と対応する深度マップを形成する。 0.75
We linearly blend these maps with weight map Wt derived from spatio-temporal cues, and pass the result to an image synthesis network to produce the final image. 我々はこれらのマップを時空間キューから得られた重みマップWtと線形にブレンドし、その結果を画像合成ネットワークに渡して最終画像を生成する。 0.75
without the need for test-time optimization. テスト時の最適化が不要。 0.65
Our pipeline is illustrated in Fig 2. パイプラインは図2に示されています。 0.63
Our system starts by aligning the two photos into a single reference frame via a homography. 私たちのシステムは、2枚の写真をホモグラフィーで単一の参照フレームにアライメントすることから始まります。
訳抜け防止モード: 我々のシステムは 2枚の写真を1枚の参照フレームにホモグラフィで整列させる。
The key to our approach is building feature LDI from each of the inputs, where each pixel in the feature LDI consists of its depth, scene flow and a learnable feature. 提案手法の鍵となるのは,各入力から特徴LDIを構築することであり,特徴LDIの各ピクセルはその深さ,シーンフロー,学習可能な特徴から構成される。 0.81
To do so, we first transform each input image into a color LDI [37] with inpainted color and depth in occluded regions. そのために,まず各入力画像を色ldi[37]に変換し,その色と深さをオクルード領域に設定する。 0.85
We then extract deep feature maps from each color layer of these LDIs to obtain a pair of feature LDIs (F0,F1). 次に、これらのLDIの各色層から深い特徴写像を抽出し、一対の特徴 LDI(F0,F1)を得る。 0.72
To model scene dynamics, the scene flows of each pixel in the LDIs are estimated based on predicted depth and optical flows between the two inputs. シーンダイナミクスをモデル化するために、LDI内の各ピクセルのシーンフローを、予測された深さと2つの入力間の光フローに基づいて推定する。
訳抜け防止モード: シーンダイナミクスをモデル化する LDIにおける各画素のシーンフローは、2つの入力間の予測深度と光の流れに基づいて推定される。
Finally, to render a novel view at intermediate time t, we lift the feature LDIs into a pair of point clouds (P0,P1) and propose a scene-flow-based bidirectional splatting and rendering module to combine the features from two directions and synthesize the final image. 最後に、中間時間tで新しいビューをレンダリングするために、特徴LDIを一対の点雲(P0,P1)に持ち上げ、シーンフローに基づく双方向スプレイティングおよびレンダリングモジュールを提案し、その特徴を2方向から組み合わせて最終画像を合成する。 0.76
We now describe our method in more detail. 現在、我々の方法を詳しく説明している。 0.70
3.2. LDIs from near-duplicate photos 3.2. ほぼ重複した写真からのLDI 0.40
Our method first computes the underlying 3D scene geometry. 本手法は,まず基礎となる3次元シーン形状を計算する。 0.58
As near-duplicates typically have scene dynamics and very little camera motion, standard Structure from Motion (SfM) and stereo reconstruction methods fail to produce reliable results. ほぼ二重化が典型的にはシーンダイナミックスを持ち、カメラモーションがほとんどないため、標準的なStructure from Motion (SfM) とステレオ再構成法は信頼性に欠ける。 0.64
Instead, we found that state-of-the-art その代わりに私たちは最先端のテクノロジーを発見した 0.31
monocular depth estimator DPT [31] can produce sharp and plausible dense depth maps for images in the wild. 単眼深度推定器DPT[31]は、野生の画像に対してシャープでプラウジブルな深度マップを生成することができる。 0.66
Therefore, we rely on DPT to obtain the geometry for each image. したがって、各画像の幾何を得るにはDPTに頼っている。 0.76
To account for small camera pose changes between the views, we compute optical flow between the views using RAFT [42], estimate a homography between the images using the flow, and then warp I1 to align with I0. ビュー間の小さなカメラのポーズ変化を考慮し,raft [42]を用いてビュー間の光フローを計算し,フローを用いた画像間のホモグラフィを推定し,i1をi0に合わせるようにワープする。 0.87
Because we only want to align the static background of two images, we mask out regions with large optical flow, which often correspond to moving objects, and compute the homography using the remaining mutual correspondences given by the flow. 2つの画像の静的背景だけを整列させたいので、しばしば動く物体に対応する大きな光の流れを持つ領域をマスクアウトし、フローによって与えられる残りの相互対応を用いてホモグラフィを計算する。 0.73
Once I1 is warped to align with I0, we treat their camera poses as identical. i1がi0に合致するように反動されると、カメラのポーズは同一視される。 0.62
To simplify notation, we henceforth re-use I0 and I1 to denote the aligned input images. 表記をシンプルにするため,I0とI1を再使用し,一致した入力画像を示す。 0.65
We then apply DPT [32] to predict the depth maps for each image. 次に,各画像の深度マップの予測にDPT[32]を適用した。 0.82
To align the depth range of I1 with I0 we estimate a global scale and shift for I1’s disparities (i.e., 1/depth), using flow correspondences in the static regions. i1の深さ範囲をi0に合わせるために、静的領域におけるフロー対応を用いて、i1のばらつき(すなわち1/深さ)のグローバルスケールとシフトを推定する。 0.73
Next, we convert the aligned photos and their dense depths to an LDI representation [37], in which layers are separated according to depth discontinuities, and apply RGBD inpainting in occluded regions as described below. 次に, 配向した写真とその密集した深度をLDI表現[37]に変換し, 奥行き不連続性に応じて層間を分離し, 後述の閉塞領域にRGBD塗布を適用する。 0.80
Prior methods for 3D photos iterate over all depth edges in an LDI to adaptively inpaint local regions using background pixels of the edge [11,38]. 従来の3D画像の手法は, エッジの背景画素 [11,38] を用いて, 局所領域を適応的に塗布する。 0.75
However, we found this procedure しかし、我々はこの手順を見つけた。 0.59
Interpolate to time t & splatI0I1Scene flows…Interpolate to time t&splatNovel view at time t 2D feature extractor Image synthesis networkLiftingFeatur e LDIFeature LDIInpainted depth and color layersFeature layersInpainted depth and color layersFeature layers 時間t&splatI1Scene flow...Interpolate to time t&splatNovel view at time t2D feature extractor Image synthesis networkLiftingFeatur e LDIFeature LDIInpainted depth and color layerFeature layerInpainted depth and color layerFeature layer
訳抜け防止モード: 時間 t & splati0i1scene流の補間...時間 t&splatnovelビューへの補間 t 2d feature extractor image synthesis networkliftingfeatur e ldifeature ldiinpainted depth 彩色層 彩色層 彩色層 彩色層
to be computationally expensive and the output difficult to feed into a training pipeline. 計算コストが高く、訓練パイプラインへの投入が困難となる。 0.62
More recently, Jampani et al. 最近ではJampaniら。 0.46
[7] employ a two-layer approach that would otherwise suit our requirements but is restricted in the number of layers. 7] 要件には適合するが,レイヤ数には制限がある2層アプローチを採用しています。 0.79
We therefore propose a simple, yet effective strategy for creating and inpainting LDIs that flow well into our learningbased pipeline. そこで我々は、学習ベースのパイプラインにうまく流れ込むLDIの作成と影響をシンプルで効果的な戦略を提案する。 0.75
Specifically, we first perform agglomerative clustering [19] in disparity space to separate the RGBD maps into different depth layers (Fig. 具体的には,rgbdマップを異なる深さ層に分離するために,まず分散空間で凝集クラスタリング [19] を行う(図)。 0.74
3 (a)). We set a fixed distance threshold above which clusters will not be merged, resulting in 2 ∼ 5 layers for an image. 3(a)であった。 我々は、クラスタをマージしない固定距離しきい値を設定し、その結果、画像に対して 2 × 5 層となる。 0.73
We apply the clustering to the disparities of both images to obtain their LDIs, L0 (cid:44) 1}L1 {Cl l=1, where Cl and Dl represent the lth color and depth layer respectively, and L0 and L1 denote the number of layers constructed from I0 and I1, respectively. L0(cid:44) 1}L1 {Cl l=1, ClとDlはそれぞれ色と深さの層を表し、L0とL1はI0とI1で構成された層数を表す。
訳抜け防止モード: 両画像の差分にクラスタリングを適用してLDIを求める。 L0 ( cid:44 ) 1}L1 { Cl l=1 ClとDlはそれぞれ、lth色および深さ層を表す。 L0とL1はそれぞれI0とI1から構築された層数を表す。
Each color layer is an RGBA image, with the alpha channel indicating valid pixels in this layer. 各色層はRGBA画像であり、この層に有効なピクセルを示すαチャネルを持つ。 0.80
l=1 and L1 (cid:44) {Cl 0}L0 l=1 と L1 (cid:44) {Cl 0}L0 0.78
0, Dl 1, Dl 0, Dl。 1,dl 0.62
Next, we apply depth-aware inpainting to each color and depth LDI layer in occluded regions. 次に,隠蔽領域の各色および深度LDI層に深度認識の塗布を適用した。 0.83
To inpaint missing contents in layer l, we treat all the pixels between the lth layer and the farthest layer as the context region (i.e., the region used as reference for inpainting), and exclude all irrelevant foreground pixels in layers nearer than layer l. レイヤlの欠落したコンテンツを塗りつぶすため、l層と最遠層のすべての画素をコンテキスト領域(すなわち、塗りつぶしの参照として使用される領域)として扱い、レイヤlよりも近いレイヤ内のすべての無関係なフォアグラウンド画素を除外する。 0.74
We set the rest of the lth layer within a certain margin from existing pixels (see supplement) to be inpainted. lth層の残りの部分を、既存のピクセル(サプリメント参照)から一定のマージン内に設定します。
訳抜け防止モード: lth層の残りの部分を既存のピクセルから一定のマージン内に設定する(サプリメント参照)。 塗られてる
We keep only inpainted pixels whose depths are smaller than the maximum depth of layer l so that inpainted regions do not mistakenly occlude layers farther than layer l. 最深部がl層の最大深さより小さい被塗画素のみを保持し、被塗領域がl層より遠くの層を誤って遮蔽しないようにする。 0.74
We adopt the pre-trained inpainting network from Shih et al [38] to inpaint color and depth at each layer. 我々は,Sh et al[38]からの事前学習した塗布網を各層に塗布した色と深さに採用した。 0.62
Fig 3 (b) shows an example of LDI layers after inpainting. 図3(b)は、塗装後のldi層の例を示す。 0.80
Note that we choose to inpaint the two LDIs up front rather than performing perframe inpainting for each rendered novel view, as the latter would suffer from multi-view inconsistency due to the lack of a global representation for disoccluded regions. 2つの LDI を前向きに塗り替えることを選択し、各レンダリングされた新規なビューに対して、各フレームのインペイントを行うのではなく、後者が非排除領域のグローバル表現が欠如しているため、複数ビューの不整合に悩まされることに注意してください。
訳抜け防止モード: 2つのldisを正面に塗るのではなく レンダリングされたノベルビューごとにパーフレームのインペインティングを実行する。 後者がマルチビューの非一貫性に苦しむため、不明瞭な領域に対するグローバル表現が欠如している。
3.3. Space-time scene representation 3.3. 時空シーン表現 0.47
We now have inpainted color LDIs L0 and L1 for novel view synthesis. カラー ldis l0 と l1 を新しいビュー合成のために塗り替えた。 0.67
From each individual LDI, we could synthesize new views of the static scene. 個々のldiから、静的シーンの新しいビューを合成することができます。 0.67
However, the LDIs alone do not model the scene motion between the two photos. しかし、LDIは2枚の写真の間のシーンの動きをモデル化していない。 0.69
To enable motion interpolation, we estimate 3D motion fields between the images. 動き補間を可能にするために,画像間の3次元動き場を推定する。 0.68
To do so, we first compute 2D optical flow between the two aligned images and perform a forward and backward consistency check to identify pixels with mutual correspondences. そこで我々はまず,2つのアライン画像間の2次元光学的流れを計算し,前後の整合性チェックを行い,相互対応の画素を特定する。
訳抜け防止モード: そうするために まず2つのアライメント画像間の2d光学フローを計算し 前方と後方の一貫性チェックを行い 相互対応で画素を識別する。
Given 2D mutual correspondences, we use their associated depth values to compute their 3D locations and lift the 2D optical flow to 3D scene flow, i.e., 3D translation vectors that displace each 3D point from one time to another. 2次元の相互対応が与えられると、3次元の位置を計算し、2次元の光学的流れを3次元のシーンフロー(つまり、各3次元の点を1つの時間から別の時間に変位させる3次元の変換ベクトル)に持ち上げる。
訳抜け防止モード: 2次元相互通信が与えられた場合、関連する深度値を用いて3次元位置を計算する。 2次元の光学的流れを3次元のシーンフロー、すなわち 3次元翻訳ベクトル それぞれの3Dポイントを 1つの時間から別の時間に置き換える。
This process gives the scene flow for mutually visible pixels of the LDIs. このプロセスは、LDIの相互可視画素に対するシーンフローを与える。 0.77
However, for pixels that do not have mutual correspondences, such as those occluded in the other view or those しかし、他の視点やそれらに偏っているような相互通信を持たない画素に対しては、 0.72
Figure 3. From an image to an inpainted LDI. 図3。 画像からインペイントされたLDIへ。 0.74
Given an input image and its estimated monocular depth [31], we first apply agglomerative clustering [19] to separate the RGBD image into multiple (in this example 3) RGBDA layers as shown in 入力画像と推定単眼深度 [31] を与えられたとき、まず凝集クラスタリング [19] を適用し、rgbd画像を複数の(この例では3)rgbda層に分割する。 0.79
(a), then perform context-aware color and depth inpainting [38] to obtain inpainted RGBDA layers (a)次に文脈対応色と深度塗布[38]を行い、塗布されたRGBDA層を得る。 0.73
(b). in the inpainted region, 3D correspondences are not well defined. (b) 塗装された領域では、3D対応はよく定義されていない。 0.43
To handle this issue, we leverage the fact that the scene flows are spatially smooth and propagate them from well-defined pixels to missing regions. この問題に対処するため,我々は,シーンフローが空間的に滑らかであり,よく定義された画素から欠落領域へ伝播するという事実を利用する。
訳抜け防止モード: この問題に対処するためです シーンの流れは空間的に滑らかで 定義済みのピクセルを欠落した領域に伝達する。
In particular, for each pixel in L0 with a corresponding point in L1, we store its associated scene flow at its pixel location, resulting in scene flow layers initially containing only well-defined values for mutually visible pixels. 特に、l1の対応する点を持つl0の各画素に対して、関連するシーンフローをそのピクセルの位置に格納し、シーンフロー層は、最初に相互に見えるピクセルに対して明確に定義された値のみを含む。 0.67
To inpaint the remaining scene flow, we perform a diffusion operation that iteratively applies a masked blur filter to each scene flow layer until all pixels in L0 have scene flow vectors. 残りのシーンフローを印加するために,L0のすべてのピクセルがシーンフローベクトルを持つまで,各シーンフロー層にマスク付きぼかしフィルタを反復的に適用する拡散操作を行う。 0.82
We apply the same method to L1 to obtain complete scene flow layers for the second LDI. この手法をL1に適用し,第2のLDIのためのシーンフロー層を得る。 0.73
This process gives us complete forward and backward scene flows for every pixel in L0 and L1, respectively. このプロセスにより、L0 と L1 の各画素に対して、それぞれ前方および後方のシーンフローが完全なものになる。 0.62
To render an image from a novel camera viewpoint and time with these two scene-flow-augmented LDIs, one simple approach is to directly interpolate the LDI point locations to the target time according to their scene flow and splat RGB values to the target view. これら2つのシーンフロー拡張されたLDIを用いて、新しいカメラ視点と時間から画像をレンダリングするには、シーンフローに応じてLDIポイント位置を直接対象時間に補間し、RGB値をターゲットビューにスラットする。 0.82
However, when using this method, we found that any small error in depth or scene flow can lead to noticeable artifacts. しかし,本手法を用いることで,奥行きやシーンフローの小さな誤差が顕著な成果物につながることがわかった。 0.64
We therefore correct for such errors by training a 2D feature extraction network that takes each inpainted LDI color layer Cl as input and produces a corresponding 2D feature map Fl. そこで我々は,LDI色層Clを入力とし,対応する2D特徴写像Flを生成する2D特徴抽出ネットワークをトレーニングすることにより,そのような誤りを補正する。 0.74
These features encode local appearance of the scene and are trained to mitigate rendering artifacts introduced by inaccurate depth or scene flow and to improve overall rendering quality. これらの特徴はシーンの局所的な外観を符号化し、不正確な深さやシーンフローによって導入されたレンダリングアーティファクトを緩和し、全体的なレンダリング品質を改善するために訓練される。 0.47
This step converts our inpainted color LDIs to feature LDIs F0 (cid:44) {Fl 0}L0 l=1, 1}L1 F1 (cid:44) {Fl l=1, both of which are augmented with scene flows. このステップは、塗装された色LDIをLDIF0 (cid:44) {Fl 0}L0 l=1, 1}L1 F1 (cid:44) {Fl l=1に変換する。 0.82
Finally, we lift all valid pixels for these fea- 最後に、これらすべての有効なピクセルを持ち上げる。 0.67
1, Dl 0, Dl 1,dl 0, Dl。 0.62
(a)LDI (b)InpaintedLDI (a)LDI (b)InpaintedLDI 0.43
ture LDIs into a pair of point clouds P0 (cid:44) {(x0, f0, u0)} and P1 (cid:44) {(x1, f1, u1)}, where each point is defined with 3D location x, appearance feature f, and 3D scene flow u. ture ldis は一対の点雲 p0 (cid:44) {(x0, f0, u0)} と p1 (cid:44) {(x1, f1, u1)} に分類される。
訳抜け防止モード: LDI を一対の点雲 P0 ( cid:44 ) { ( x0, f0, u0 ) } P1 ( cid:44 ) { ( x1, f1, u1 ) } それぞれの点が 3 次元位置 x の外観特徴 f で定義される場合 そして3Dシーンフロー u。
3.4. Bidirectional splatting and rendering 3.4. 双方向スプレーティングとレンダリング 0.55
Given a pair of 3D feature point clouds P0 and P1, we wish to interpolate and render them to produce the image at a novel view and time t. 一対の3D特徴点雲 P0 と P1 が与えられたら、それらを補間してレンダリングして、新しいビューとタイム t で画像を生成したい。 0.73
Inspired by prior work [2, 21], we propose a depth-aware bidirectional splatting technique. 先行研究 [2, 21] に触発されて, 深度を考慮した双方向スプラッティング手法を提案する。 0.60
In particular, we first obtain the 3D location of every point (in both point clouds) at time t by displacing it according to its associated scene flow scaled by t: x0→t = x0 + tu0, x1→t = x1 + (1 − t)u1. 特に、まず時刻 t におけるすべての点(両点の雲)の3次元位置を t: x0→t = x0 + tu0, x1→t = x1 + (1 − t)u1 でスケールした関連するシーンフローに従って分解することで得られる。 0.76
The displaced points and their associated features from each direction (0 → t or 1 → t) are then separately splatted into the target viewpoint using differentiable point-based rendering [48], which results in a pair of rendered 2D feature maps F0→t, F1→t and depth maps D0→t, D1→t. 次に、各方向 (0 → t または 1 → t) からの変位点とその関連特徴を微分可能な点ベースのレンダリング [48] を用いてターゲット視点に分割し、2次元特徴写像 f0→t, f1→t と深度写像 d0→t, d1→t のペアをレンダリングする。 0.75
To combine the two feature maps and decode them to a final image, we linearly blend them based on spatial-temporal cues. これら2つの特徴マップを組み合わせて最終画像にデコードするために,空間的時間的手がかりに基づいてそれらを線形にブレンドする。 0.65
Our general principles are: 私たちの一般的な原則は 0.67
1) if t is closer to 0 then F0→t should have a higher weight, and vice versa, and 1) t が 0 に近いなら、f0→t はより高い重みを持ち、その逆である。 0.82
2) for a 2D pixel, if its splatted depth D0→t from time 0 is smaller then the depth D1→t from time 1, F0→t should be favored more, and vice versa. 2) 2次元画素の場合、時間 0 から切り出された深さ D0→t が小さくなると、時間 1, F0→t から深度 D1→t が好まれる。 0.83
Therefore, we compute a weight map to linearly blend the two feature and depth maps as follows: したがって、2つの特徴と深さ写像を線形に混合する重みマップを以下のように計算する。
訳抜け防止モード: それゆえ 重量マップを計算し 以下の2つの特徴と深さマップを線形にブレンドする。
(1 − t) · exp(−β · D0→t) (1 − t) ·exp(−β · D0→t) 0.44
Wt = (1 − t) · exp(−β · D0→t) + t · exp(−β · D1→t) (1) Ft = Wt · F0→t + (1 − Wt) · F1→t (2) Dt = Wt · D0→t + (1 − Wt) · D1→t. Wt = (1 − t) · exp(−β · D0→t) + t · exp(−β · D1→t) (1) Ft = Wt · F0→t + (1 − Wt) · F1→t (2) Dt = Wt · D0→t + (1 − Wt) · D1→t。
訳抜け防止モード: Wt = (1 − t ) · exp(−β · d0→t ) + t · exp(−β · d1→t ) (1 ) ft = wt · f0→t + (1 − wt ) · f1→t (2 ) dt = wt · d0→t + (1 − wt ) · d1→t である。
(3) Here β ∈ R+ is a learnable parameter that controls contributions based on relative depth. (3) ここで、β ∈ R+は相対的な深さに基づいて寄与を制御する学習可能なパラメータである。 0.65
Finally, Ft and Dt are fed to a network that synthesizes the final color image. 最後に、FtとDtは最終色画像を合成するネットワークに供給される。 0.82
3.5. Training We train the feature extractor, image synthesis network, and the parameter β on two video datasets to optimize the rendering quality, as described below. 3.5. 研修 以下のように、2つのビデオデータセット上で特徴抽出器、画像合成ネットワーク、パラメータβを訓練し、レンダリング品質を最適化する。 0.56
Training datasets. データセットのトレーニング。 0.57
To train our system, we ideally would use image triplets with known camera parameters, where each triplet depicts a dynamic scene from a moving camera, so that we can use two images as input and the third one (at an intermediate time and novel viewpoint) as ground truth. システムをトレーニングするには、既知のカメラパラメータを持つイメージトリプレットを使用して、各トリプレットが移動カメラから動的シーンを描写し、2つのイメージを入力として、3番目のイメージ(中間時間と新しい視点で)を基底真理として使用することが理想的です。 0.75
However, such data is difficult to collect at scale, since it either requires capturing dynamic scenes with synchronized multi-view camera systems, or running SfM on dynamic videos shot from moving cameras. しかし、このようなデータは、同期マルチビューカメラシステムで動的なシーンを撮影するか、移動カメラから撮影したダイナミックビデオ上でSfMを実行する必要があるため、大規模な収集は困難である。 0.65
The former requires a time-consuming setup and is difficult to scale to in-the-wild scenarios, while the latter cannot guarantee the accuracy of estimated camera parameters due to moving objects and 前者は時間を要するセットアップで、Wildのシナリオにスケールするのは難しく、後者は移動物体による推定カメラパラメータの精度を保証することができない。 0.76
potentially insufficient motion parallax. 運動視差が不足してる 0.54
Therefore, we found that existing datasets of this kind are not sufficiently large or diverse for use as training data. そのため,既存のデータセットはトレーニングデータとして十分な大きさや多様性を持っていないことがわかった。 0.69
Instead, we propose two sources of more accessible data for joint training of motion interpolation and view synthesis. 代わりに,動き補間とビュー合成の合同学習のための,よりアクセスしやすいデータソースを2つ提案する。 0.67
The first source contains video clips with small camera motions (unknown pose). 最初のソースには、小さなカメラの動き(未知のポーズ)の動画クリップが含まれている。 0.59
We assume that the cameras are static and all pixel displacements are induced by scene motion. カメラは静止しており、すべての画素変位はシーンの動きによって引き起こされると仮定する。 0.66
This type of data allows us to learn motion interpolation without the need for camera calibration. この種のデータは、カメラのキャリブレーションを必要とせずに、動きの補間を学習できる。 0.63
The second source is video clips of static scenes with known camera motion. 第2のソースは、既知のカメラモーションを備えた静的シーンのビデオクリップである。 0.66
The camera motion of static scenes can be robustly estimated using SfM and such data gives us supervision for learning novel view synthesis. 静的なシーンのカメラの動きをSfMを用いて頑健に推定することができ、このようなデータにより新しいビュー合成の学習の監督を行うことができる。 0.54
For the first source, we use Vimeo-90K [51], a widely used dataset for learning frame interpolation. まず、フレーム補間学習に広く使われているデータセットであるVimeo-90K[51]を使用する。 0.77
For the second source, we use the MannequinChallenge dataset [14], which contains over 170K video frames of humans pretending to be statues captured from moving cameras, with corresponding camera poses estimated through SfM [56]. 第2の情報源は,移動カメラから撮像された像のふりをした人間の170万以上のビデオフレームを含むmannequinchallengeデータセット[14]と,対応するカメラポーズをsfm [56]で推定する。 0.72
Since the scenes in this dataset including people are (nearly) stationary, the estimated camera parameters are sufficiently accurate for our purposes. 人を含むこのデータセットのシーンは(ほぼ)静止しているため、推定カメラパラメーターは我々の目的に対して十分正確である。 0.75
We mix these two datasets to train our model. これら2つのデータセットを混合してモデルをトレーニングします。 0.56
Learnable components. 学習可能なコンポーネント。 0.59
Our system consists of several modules: 私たちのシステムはいくつかのモジュールで構成されています。 0.41
(a) monocular depth estimator, (a)単眼深度推定器 0.34
(b) color and depth inpainter, (b)色と奥行きが混ざり合うこと。 0.60
(c) 2D feature extractor, (c)2次元特徴抽出装置、 0.78
(d) optical flow estimator and (d)光流量推定器及び 0.43
(e) image synthesis network. (e)画像合成ネットワーク。 0.77
We could conceptually train this whole system, but in practice we train only modules 概念的にはこのシステム全体を訓練できますが、実際にはモジュールのみを訓練します 0.67
(c), (d), and (c) (d)および 0.48
(e), and use pretrained state-of-the-art models [31,38] for (e)および事前訓練された最先端モデル[31,38]を使用する 0.68
(a) and (b). This makes training less computationally expensive, and also avoids the need for the largescale direct supervision required for learning high-quality depth estimation and RGBD inpainting networks. (a)及び (b) これにより、トレーニングは計算コストが低くなり、高品質な深度推定とRGBDインパインティングネットワークの学習に必要な大規模な直接監督が不要になる。 0.58
Training losses. We train our system using image reconstruction losses. 訓練損失。 画像再構成損失を用いてシステムを訓練する。 0.52
In particular, we minimize perceptual loss [9,55] and l1 loss between the predicted and ground-truth images to supervise our networks. 特に,予測画像と地上画像の知覚損失 [9,55] とl1損失を最小化し,ネットワークの監視を行う。 0.82
4. Experiments 4.1. Implementation details 4. 実験 4.1 実施内容 0.67
For the feature extractor, we use ResNet34 [5] truncated after layer3 followed by two additional up-sampling layers to extract feature maps for each RGB layer, which we augment with a binary mask to indicate which pixels are covered (observed or inpainted) in that layer. 特徴抽出器では,ResNet34[5]をレイヤ3の後,さらに2つのアップサンプリングレイヤを付加して,各RGB層の特徴マップを抽出する。
訳抜け防止モード: 特徴抽出器では、ResNet34[5 ]をレイヤ3以降に切り離し、2つの追加のサンプリングレイヤを使用して、各RGB層の特徴マップを抽出します。 二段マスクで強化し その層の中でどのピクセルがカバーされているかを示す。
For the image synthesis network, we adopt a 2D U-Net architecture. 画像合成ネットワークでは、2次元U-Netアーキテクチャを採用する。 0.76
For the optical flow estimator we use a pre-trained RAFT network [42] and fine-tune its weights during training. 光流推定器については,事前訓練されたいかだネットワーク [42] を用いて,訓練中の重みを微調整する。 0.59
We use Pytorch3D [33] for differentiable point cloud rendering. 差別化可能なポイントクラウドレンダリングにはpytorch3d [33]を使用します。 0.51
Rather than using a fixed radius for all points, we set the radius of a point proportionally to its disparity when rendering a target viewpoint. すべての点に対して固定半径を使用するのではなく、対象の視点を描画する際にその差に比例して点の半径を設定する。 0.66
This prevents foreground objects from これにより、前景オブジェクトが防止される 0.54
becoming semi-transparent due to gaps between samples when the camera zooms in. カメラがズームインすると、サンプル間の隙間によって半透明になる。 0.67
We train our system using Adam [10], with base learning rates set to 10−4 for the feature extractor and image synthesis network, and 10−6 for the optical flow network [42]. 我々は,機能抽出と画像合成ネットワークのためのベース学習率を10−4に設定し,光学フローネットワーク [42] を10−6に設定したadam [10]を用いてシステムを訓練した。 0.79
We train our model on 8 NVIDIA V100 GPUs for 250k iterations for ∼ 3 days. 私たちは8台のNVIDIA V100 GPUで250kイテレーションで3日間トレーニングしています。 0.71
We decrease the learning rates exponentially during the optimization. 我々は最適化中に指数関数的に学習率を下げる。 0.62
Each training batch contains 8 triplets randomly sampled from the Vimeo-90K [51] and MannequinChallenge datasets [14]. 各トレーニングバッチにはvimeo-90k [51]とmannequinchallengeデータセット[14]からランダムにサンプリングされた8つのトリプレットが含まれている。 0.56
Within each triplet, the start and end images are used as input and the intermediate frame is used as ground truth. 各トリプレット内では、開始画像と終了画像が入力として使用され、中間フレームが基底真理として使用される。 0.71
To train on MannequinChallenge, we must calibrate the monocular depth maps so that they align with the SfM point clouds. MannequinChallenge でトレーニングするには、SfM 点雲と整合するように、単分子深度マップを校正する必要がある。 0.68
We estimate a disparity scale and shift for each depth map to minimize the MSE error between it and the depths of recovered SfM points. 得られたSfM点の深さとMSE誤差を最小化するために,各深度マップの差分スケールとシフトを推定する。 0.86
We discard sequences with large alignment errors during training. トレーニング中にアライメントエラーの大きなシーケンスを破棄する。 0.64
Please refer to the supplement for additional details. 詳細はサプリメントを参照してください。 0.46
4.2. Baselines 4.2. ベースライン 0.52
To our knowledge, there is no prior work that serves as a direct baseline for our new task of space-time view synthesis from the near-duplicate photos. 我々の知る限り、ほぼ重複した写真からの時空ビュー合成という新たなタスクの直接的なベースラインとして機能する以前の作業はない。 0.65
One might consider dynamicNeRF approaches [15,27,29,49] as baselines. dynamicnerf アプローチ [15,27,29,49] をベースラインと考える人もいるでしょう。 0.47
However, these all require dense input views with known camera parameters and sufficient motion parallax, and thus do not apply to our scenario. しかしこれらはすべて、既知のカメラパラメータと十分な動きパララックスを持つ高密度な入力ビューを必要とするため、我々のシナリオには適用できない。 0.66
Instead, as in NSFF [15], we found that we can combine individual methods to form baselines for our method. その代わり、NSFF [15]のように、個々のメソッドを組み合わせることで、メソッドのベースラインを形成できることがわかった。 0.71
We describe three such baselines below. 以下の3つの基準を述べる。 0.66
Naive scene flow. ナイーブなシーンフロー。 0.70
As a simple baseline, we augment monocular depth with optical flow to get scene flow. 単純なベースラインとして,単眼の深さを光学的流れで増やし,シーンフローを得る。 0.67
Specifically, we first compute the monocular depths of the two views using DPT [31], and lift them into 3D to get two colored point clouds. 具体的には、まずDPT[31]を用いて2つのビューの単眼深度を計算し、それらを3Dに上げ、2つの色の点雲を得る。 0.69
We then use 2D optical flows generated by RAFT [42] to find pixels with mutual correspondences and compute their scene flows in the forward and backward directions. 次に,raft [42] が生成する2次元光学フローを用いて相互対応のある画素を探索し,そのシーンフローを前後方向に計算する。 0.79
The two colored point clouds are then separately rendered to the target viewpoint at the intermediate time, producing two RGB images. 次に、2つの色の点雲を中間時間に対象視点に別々にレンダリングし、2つのRGB画像を生成する。 0.69
Finally, we linearly blend the two rendered images based on the time t to obtain the final view. 最後に、時間tに基づいて2つのレンダリング画像を線形にブレンドし、最終的なビューを得る。 0.67
Note that this baseline does not perform inpainting. この基準線は塗装を行わない点に注意。 0.55
Frame interpolation → 3D photo. フレーム補間 → 3D写真。 0.85
Existing methods for frame interpolation and novel view synthesis can be combined to form a baseline for our task. 既存のフレーム補間法と新しいビュー合成法を組み合わせることで,タスクのベースラインを形成することができる。 0.78
Specifically, to synthesize an image at the novel time and viewpoint, we first adopt a state-of-the-art frame interpolation method, XVFI [39], to synthesize a frame at the intermediate time. 具体的には、新しい時間と視点で画像を合成するために、まず最先端のフレーム補間法であるxvfi [39]を採用し、中間時間にフレームを合成する。 0.73
We then apply 3D photo inpainting [38] to turn the interpolated frame into an inpainted LDI and render it from a desired viewpoint through a constructed mesh. 次に、3dフォトインペインティング [38] を適用して、補間されたフレームをインペインテッドldiに変換し、構築されたメッシュを通して所望の視点からレンダリングする。 0.67
For a fair comparison, we upgrade the 3D photo method to use the state-of-the-art monocular depth backbone DPT [31], i.e., the same monocular depth predictor we use in our approach. 公平な比較のために,我々は,最先端の単分子深度バックボーンDPT[31],すなわち,我々のアプローチで使用している同じ単分子深度予測器を使用するように3D写真法をアップグレードした。 0.69
3D photo → frame interpolation. 3d photo → フレーム補間。 0.85
This baseline reverses the order of operations in the aforementioned method. このベースラインは、前述のメソッドの操作順序を反転する。 0.78
First, we apply the 3D photo [38] to each of the near-duplicates and render them to the target viewpoint separately. まず, 3D 写真 [38] を近距離倍率それぞれに適用し, 対象視点に別々にレンダリングする。 0.74
We then apply XVFI [39] to these two rendered images to obtain a final view at intermediate time t. 次に、この2つのレンダリング画像にXVFI[39]を適用し、中間時間tで最終ビューを得る。 0.69
4.3. Comparisons on public benchmarks Evaluation datasets. 4.3. 公開ベンチマーク評価データセットの比較。 0.55
We evaluate our method and baselines on two public multi-view dynamic scene datasets: the NVIDIA Dynamic Scenes Dataset [52] and the UCSD MultiView Video Dataset [16]. 我々は,nvidia dynamic scenes dataset [52] と ucsd multiview video dataset [16] の2つの公開マルチビュー動的シーンデータセットについて,提案手法とベースラインを評価した。 0.77
The NVIDIA dataset consists of 9 scenes involving more challenging human and non-human motions captured by 12 synchronized cameras at 60FPS. NVIDIAのデータセットは、60FPSで12台の同期カメラによってキャプチャされた、より困難な人間と非人間の動きを含む9つのシーンで構成されている。 0.49
The UCSD dataset contains 96 multi-view videos of dynamic scenes, which capture diverse human interactions in outdoor environments. UCSDデータセットには、屋外環境における多様な人間のインタラクションをキャプチャする、動的シーンの96のマルチビュービデオが含まれている。 0.59
The videos are recorded by 10 synchronized action cameras at 120FPS. ビデオは120FPSで10台の同期アクションカメラで録画される。 0.72
We run COLMAP [36] on each of the multi-view videos (masking out dynamic components using provided motion masks) to obtain camera parameters and sparse point clouds of the static scene contents. COLMAP [36] を各マルチビュービデオ(提供されるモーションマスクを用いて動的コンポーネントを抽出)上で実行し,静的シーン内容のカメラパラメータとスパース点雲を得る。 0.86
Experimental setup. To evaluate rendering quality, we sample a triplet (two input and one target view) every 0.5 seconds from the multi-view videos. 実験装置。 レンダリング品質を評価するために,マルチビュービデオから0.5秒毎にトリプレット(2つの入力と1つのターゲットビュー)をサンプリングする。 0.68
In each triplet, we select the two input views to be at the same camera viewpoint and two frames apart, and the target view to be the middle frame at a nearby camera viewpoint. それぞれのトリプレットにおいて、2つの入力ビューを同じカメラ視点で、2つのフレームを分離し、ターゲットビューを近くのカメラ視点で中間フレームとする。 0.75
We compare the prediction with the ground truth at the same time and viewpoint. 予測と基礎的真理を同時に比較し,その観点から考察する。 0.76
All methods we evaluate use monocular depths that are only predicted up to an unknown disparity scale and shift. 私たちが評価するすべての方法は、未知のばらばらなスケールとシフトでのみ予測される単眼深度を使用する。 0.65
To properly render images into the target viewpoint and compare with the ground truth, we need to obtain aligned depth maps that are consistent with the reconstructed scenes. 対象の視点で画像を適切にレンダリングし、地上の真実と比較するには、再構成されたシーンと整合した深度マップを得る必要がある。 0.71
Similar to Sec. 4.1, we align the predicted depths with the depth from SfM point clouds. Sec.1と同様、予測深度はSfM点雲からの深度と一致している。 0.67
Please refer to the supplement for more detail. 詳しくはサプリメントを参照してください。 0.50
Quantitative comparisons. We evaluate the rendering quality of each method using three standard error metrics: PSNR, SSIM and LPIPS [55]. 定量的比較。 我々は,PSNR,SSIM,LPIPS[55]の3つの標準誤差指標を用いて,各手法のレンダリング品質を評価する。 0.55
Tab. 1 shows comparisons between our method and the baselines. タブ。 1は,本手法とベースラインの比較を示す。 0.75
Our method consistently outperforms the baselines in all error metrics. 私たちのメソッドは、すべてのエラーメトリクスのベースラインを一貫して上回ります。 0.50
In particular, our LPIPS scores are significantly better, suggesting better perceptual quality and photorealism of rendered images for our approach. 特に,LPIPSスコアは有意に向上し,レンダリング画像の知覚的品質とフォトリアリズムが向上することが示唆された。 0.72
Note that all the methods have relatively low PSNR/SSIM because these metrics are sensitive to pixel misalignment, and inaccurate geometry from monocular depth networks can cause the rendered images to not fully align with the ground truth. 全ての手法がPSNR/SSIMが比較的低いのは、これらのメトリクスが画素のずれに敏感であるためであり、単眼深度ネットワークからの不正確な幾何は、レンダリングされた画像が地上の真実と完全に一致しないことを意味する。 0.60
But since all methods use DPT [31] depths, this issue does not affect the relative comparisons. しかし、全てのメソッドがDPT[31]深さを使用するため、この問題は相対比較には影響しない。 0.73
Qualitative comparisons. We show qualitative comparisons on the UCSD dataset in Fig 4. 質的な比較。 図4のUCSDデータセットについて定性比較を行った。 0.72
Our method generates the fewest artifacts while preserving the most details in the scene. 提案手法はシーンの最も細部を保存しつつ,最も少ないアーティファクトを生成する。 0.62
The naive scene flow baseline produces noticeable holes. ナイーブシーンフローベースラインは目立った穴を生じさせる。 0.61
Applying 3D Photos and then frame interpolation 3D写真の応用とフレーム補間 0.86
Method Naive Scene Flow Frame Interpolation [39] → 3D Photo [38] 3D Photo [38] → Frame Interpolation [39] Ours フローフレーム補間法[39] → 3次元写真[38] → 3次元写真[38] → フレーム補間[39] 0.71
NVIDIA Dynamic Scene [52] UCSD Multi-View Video [16] LPIPS↓ PSNR↑ SSIM↑ 0.120 0.681 19.34 0.123 0.676 21.01 21.18 0.681 0.126 0.078 21.72 0.702 NVIDIA Dynamic Scene [52] UCSD Multi-View Video [16] LPIPS PSNR シュミット 0.120 0.681 19.34 0.123 0.676 21.01 21.18 0.681 0.126 0.078 21.72 0.702 0.59
PSNR↑ SSIM↑ 0.837 23.60 0.852 25.70 25.96 0.858 26.54 0.864 国語 0.837 23.60 0.852 25.70 25.96 0.858 26.54 0.864 0.34
LPIPS ↓ 0.177 0.189 0.192 0.145 LPIPS ↓ 0.177 0.189 0.192 0.145 0.27
Table 1. Quantitative comparisons of novel view and time synthesis. 表1。 新しい視点と時間合成の定量的比較 0.72
Our method outperforms all the baselines in all error metrics. 私たちのメソッドはすべてのエラーメトリクスのベースラインを上回っています。 0.56
See Sec. 4.2 for the descriptions of baselines. ベースラインの説明については、sec.4.2を参照。 0.55
No features 0.693 No inpainting 0.685 No bidirectional 0.694 Full model Ours 21.72 0.702 0.693 No inpainting 0.685 No bidirectional 0.694 Full Model Ours 21.72 0.702 0.37
PSNR↑ SSIM↑ LPIPS↓ 0.173 21.16 21.33 0.145 0.151 21.56 0.145 0.173 21.16 21.33 0.145 0.151 21.56 0.145 0.20
Table 2. Ablation studies on the NVIDIA dataset [52]. 表2。 NVIDIAデータセット[52]のアブレーション研究 0.70
Each component of our system leads to an increase in rendering quality. システムの各コンポーネントは、レンダリング品質の向上につながります。 0.69
Moments. 4.5. Ablations and analysis Ablation studies. 瞬間だ 4.5. アブレーションと分析アブレーションの研究。 0.54
We conduct ablation studies to justify our design choices, as shown in Tab. タブに示すように、我々は設計の選択を正当化するためにアブレーション研究を行います。 0.60
2. For “No features”, instead of learning features we directly use RGB colors from the input photos to splat and render novel views. 2. 機能なし”では、入力された写真からRGB色を直接使用して、新しいビューをスプラットしレンダリングします。 0.54
For “No inpainting”, we train the system without inpainting color and depth in our LDIs and rely on the image synthesis network to fill in disoccluded regions in each rendered view separately (prone to temporal inconsistency). No inpainting”では、LDIの色と深さを塗ることなくシステムをトレーニングし、画像合成ネットワークを使って各レンダリングビューの非排除領域を別々に埋める(時間的不整合を伴わない)。 0.76
For “No bidirectional warping”, we use only single-directional scene flow from time 0 to time 1. No bidirectional warping”では、時間0から時間1までの単方向のシーンフローのみを使用します。 0.78
Performance. Our method can be applied to new nearduplicate photo pairs without requiring test-time optimization. パフォーマンス。 本手法は, テスト時間最適化を必要とせず, 新たな近接複写フォトペアに適用できる。 0.70
We test our runtime on an NVIDIA V100 GPU. NVIDIA V100 GPU上でランタイムをテストする。 0.85
Given a duplicate pair of images with resolution 768 × 576, it takes 4.48s to build LDIs, extract feature maps, and build the 3D feature scene flow. 解像度768×576の2枚の画像が与えられた場合、LDIを構築し、特徴マップを抽出し、3D特徴シーンフローを構築するのに4.48秒を要する。 0.65
These operations are performed once for each duplicate pair. これらの操作は、重複するペアごとに1回行われる。 0.59
The projection-and-image -synthesis stage takes 0.71s to render each output frame. 投影・画像合成段階は、各出力フレームの描画に 0.71 秒かかる。 0.55
5. Discussion and Conclusion We presented a new task of creating 3D Moments from near-duplicate photos, allowing simultaneous view extrapolation and motion interpolation for a dynamic scene. 5.議論と結論 映像から3dモーメントを作成するという新しい課題を提示し,ダイナミックシーンの映像外挿と動画像間補間を同時に行えるようにした。 0.72
We propose a new system for this task that models the scene as a pair of feature LDIs augmented with scene flows. 本稿では,シーンフローを付加した特徴LDIのペアとしてシーンをモデル化する新しいシステムを提案する。 0.80
By training on both posed and unposed video datasets, our method is able to produce photorealistic space-time videos from the near-duplicate pairs without substantial visual artifacts or temporal inconsistency. 提案手法は,映像データセットと非ポーズビデオデータセットの両方をトレーニングすることにより,視覚的アーティファクトや時間的不整合を伴わずに,ほぼ重複したペアからフォトリアリスティックな時空ビデオを生成することができる。 0.55
Experiments show that our approach 実験によると 我々のアプローチは 0.67
Figure 4. Qualitative comparisons on the UCSD dataset [16]. 図4。 UCSDデータセットの質的な比較 [16]。 0.72
From left to right are (a) naive scene flow, 左から右へ (a)ナイーブなシーンフロー 0.63
(b) frame interpolation [39] → 3D Photo [38], b)フレーム補間[39] → 3Dフォト[38] 0.74
(c) 3D Photo [38]→ frame interpolation [39], (c)3d写真[38]→フレーム補間[39], 0.76
(d) our method, and (d)我々の方法、及び 0.44
(e) ground truth. 訳語 真実;真実;真実;真実 0.40
leads to blurry disoccluded regions as the frame interpolator [39] is not trained to interpolate between inconsistently inpainted images. フレーム補間[39]は、不整合に塗布された画像間の補間を訓練されないため、ぼやけている領域につながる。 0.61
Applying frame interpolation and then 3D Photos leads to strong flickering artifacts due to inconsistent inpainting in each frame (see supplement video). フレーム補間を施して3D写真を適用すると、各フレームに不整合が生じるため、強い点滅するアーティファクトが発生する(補足ビデオ参照)。 0.70
4.4. Comparisons on in-the-wild photos 4.4. 地中写真の比較 0.50
We also evaluate our approach and the baselines qualitatively on in-the-wild near-duplicate photos. また,我々のアプローチとベースラインを,近距離画像の質的に評価した。 0.65
We collected these photos from our colleagues and their friends and families and obtained their consent to present these photos in this manuscript. 同僚や友人や家族からこれらの写真を収集し、これらの写真をこの原稿に提示する同意を得たのです。 0.72
We show comparisons of views generated by each method in Fig 5. それぞれの手法が生成したビューの比較を図5で示す。 0.82
In particular, we show two different kinds of camera motions, zooming in and tracking, and rendering a novel view at intermediate time t = 0.5. 特に、ズームインとトラッキングの2つの異なる種類のカメラの動きを示し、中間時間t = 0.5で新しいビューをレンダリングする。 0.67
Our method achieves overall better rendering quality with fewer visual artifacts, especially near moving objects and occlusion boundaries. 本手法は,視覚的アーティファクトが少なく,特に移動物体や閉塞境界付近で全体のレンダリング品質を向上させる。 0.70
We refer readers to the supplementary video for better visual comparisons of these generated 3D これらの生成した3Dの視覚的比較のための補足映像を参照する。 0.67
(a) (b) (c) (a) (b) (c) 0.43
(d) (e) (d) (e) 0.43
Figure 5. Qualitative comparisons on in-the-wild photos. 図5。 in-the-wild写真における質的比較 0.66
Compared with the baselines, our approach produces more realistic views with significantly fewer visual artifacts, especially in moving or disoccluded regions. ベースラインと比較して、我々のアプローチは、特に移動や排除された領域において、視覚的アーティファクトが著しく少ない、より現実的なビューを生み出す。 0.51
Please see the supplemental video for animated comparisons. アニメーション比較の補足ビデオをご覧ください。 0.66
outperforms the baseline methods both quantitatively and qualitatively on the tasks of space-time view synthesis. 時空ビュー合成のタスクにおいて、定量的および定性的にベースライン法を上回っている。 0.54
Limitations and future work. Our method inherits some limitations of monocular depth and optical flow methods. 限界と将来の仕事。 本手法は単眼深度法と光流法の限界を継承する。 0.75
Our method does not work well for photos with complex scene geometry or semi-transparent objects. 本手法は複雑なシーン形状や半透明物体を持つ写真ではうまく機能しない。 0.67
In addition, our method tends to fail in the presence of large and non-linear motions as well as challenging self-occlusions, such as hands. さらに,本手法は手などの自己閉塞性に挑戦するだけでなく,大・非直線運動の存在下でも失敗する傾向にある。 0.69
Please refer to the supplementary video for failure cases. 障害事例については補足ビデオを参照。 0.63
Fu- ture work includes designing an automatic selection scheme for photo pairs suitable for 3D Moment creation, automatically detecting failures, better modeling of large or non-linear motions, and extending the current method to handle more than two near-duplicate photos. 府 チュールワークには、3Dモーメント作成に適した写真ペアの自動選択スキームの設計、失敗の自動検出、大または非直線的な動きのモデリングの改善、そして2つ以上の近距離写真の処理に現在の方法を拡張することが含まれる。 0.47
Acknowledgements. We thank Richard Tucker, Tianfan Xue, Andrew Liu, Jamie Aspinall, Fitsum Reda and Forrester Cole for help, discussion and support. 承認。 Richard Tucker氏、Tianfan Xue氏、Andrew Liu氏、Jamie Aspinall氏、Fitsum Reda氏、Forrester Cole氏による支援、議論、サポートに感謝します。 0.57
Inputnear-duplicatep airsInterp. Inputnear-duplicatep airsInterp 0.40
→3DPhoto3DPhoto→Interp.Ours →3DPhoto3DPhoto→Interp.Ours 0.12
References [1] Aayush Bansal, Minh Vo, Yaser Sheikh, Deva Ramanan, and Srinivasa Narasimhan. 参考文献 [1] Aayush Bansal, Minh Vo, Yaser Sheikh, Deva Ramanan, Srinivasa Narasimhan。 0.51
4d visualization of dynamic events from unconstrained multi-view videos. 非拘束マルチビュービデオからの動的イベントの4次元可視化 0.74
In CVPR, pages 5366– 5375, 2020. CVPRでは、5366–5375, 2020。 0.78
2 [2] Wenbo Bao, Wei-Sheng Lai, Chao Ma, Xiaoyun Zhang, Zhiyong Gao, and Ming-Hsuan Yang. 2 [2]ウェンボ・バオ、Wei-Sheng Lai、Chao Ma、Xiaoyun Zhang、Zhiyong Gao、Ming-Hsuan Yang。 0.54
Depth-aware video frame interpolation. 深度対応ビデオフレーム補間。 0.79
In CVPR, June 2019. 2019年6月、CVPR。 0.74
2, 5 [3] Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel, and Tobias Ritschel. 2, 5 [3]Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel, Tobias Ritschel。 0.41
X-fields: Implicit neural view-, light-and time-image interpolation. X-fields: 暗黙のニューラルビュー、光と時間の補間。 0.59
ACM TOG, 39(6), 2020. acm tog, 39(6), 2020。 0.61
2 [4] Michael Broxton, John Flynn, Ryan Overbeck, Daniel Erickson, Peter Hedman, Matthew Duvall, Jason Dourgarian, Jay Busch, Matt Whalen, and Paul Debevec. 2 Michael Broxton氏、John Flynn氏、Ryan Overbeck氏、Daniel Erickson氏、Peter Hedman氏、Matthew Duvall氏、Jason Dourgarian氏、Jay Busch氏、Matt Whalen氏、Paul Debevec氏。 0.61
Immersive light field video with a layered mesh representation. 層状メッシュ表現を用いた没入型光フィールドビデオ 0.68
ACM TOG, 39(4), July 2020. acm tog, 39(4), 2020年7月。 0.71
2 [5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2 [5]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.35
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In CVPR, pages 770–778, 2016. CVPR』770-778頁、2016年。 0.80
5 [6] Jun ho Park, Chul Lee, and Chang-Su Kim. 5 6]ジュン・ホー・パーク、チュル・リー、チャン・ス・キム。 0.49
Asymmetric bilateral motion estimation for video frame interpolation. ビデオフレーム補間のための左右非対称運動推定 0.82
In ICCV, 2021. ICCV、2021年。 0.67
2 [7] V. Jampani, Huiwen Chang, Kyle Sargent, Abhishek Kar, Richard Tucker, Michael Krainin, Dominik Philemon Kaeser, William T. Freeman, D. Salesin, Brian Curless, and Ce Liu. 2 V.Jampani, Huiwen Chang, Kyle Sargent, Abhishek Kar, Richard Tucker, Michael Krainin, Dominik Philemon Kaeser, William T. Freeman, D. Salesin, Brian Curless, Ce Liu
訳抜け防止モード: 2 [7 ]V.Jampani,Huiwen Chang,Kyle Sargent, Abhishek Kar, Richard Tucker, Michael Krainin, Dominik Philemon Kaeser ウィリアム・T・フリーマン(William T. Freeman)、D. Salesin、Brian Curless、Ce Liu。
SLIDE: Single image 3d photography with soft layering and depth-aware inpainting. SLIDE: ソフトな層化と深度対応のインペイントを備えたシングルイメージ3D写真。 0.60
In ICCV, 2021. ICCV、2021年。 0.67
2, 4 [8] Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-Hsuan Yang, Erik G. Learned-Miller, and Jan Kautz. 2, 4 8]huaizu jiang、deqing sun、varun jampani、ming-hsuan yang、erik g. learned-miller、jan kautz。 0.51
Super slomo: High quality estimation of multiple intermediate frames for video interpolation. Super slomo:ビデオ補間のための複数の中間フレームの高品質推定 0.84
In CVPR, pages 9000–9008, 2018. CVPRでは2018年9000-9008頁。 0.71
2 [9] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2 9]ジャスティン・ジョンソン、アレクサンドル・アラヒ、リー・フェイ=フェイ。 0.47
Perceptual losses for real-time style transfer and super-resolution. リアルタイム型転送と超解像における知覚的損失 0.56
In European conference on computer vision, pages 694–711. 欧州のコンピュータビジョン会議において、694-711頁。 0.71
Springer, 2016. スプリンガー、2016年。 0.60
5 [10] Diederik P. Kingma and Jimmy Ba. 5 10] ディーデリク・p・キングマとジミー・バ 0.47
Adam: A method for Adam: メソッドです。 0.69
stochastic optimization. CoRR, abs/1412.6980, 2014. 確率最適化。 CoRR, abs/1412.6980, 2014 0.50
6 [11] Johannes Kopf, Kevin Matzen, Suhib Alsisan, Ocean Quigley, Francis Ge, Yangming Chong, Josh Patterson, Jan-Michael Frahm, Shu Wu, Matthew Yu, Peizhao Zhang, Zijian He, P´eter Vajda, Ayush Saraf, and Michael F. Cohen. 6 11]Johannes Kopf, Kevin Matzen, Suhib Alsisan, Ocean Quigley, Francis Ge, Yangming Chong, Josh Patterson, Jan-Michael Frahm, Shu Wu, Matthew Yu, Peizhao Zhang, Zijian He, P ́eter Vajda, Ayush Saraf, Michael F. Cohen。
訳抜け防止モード: 6 11] ヨハネス・コップ ケヴィン・マツェン スヒブ・アシサン ocean quigley、francis ge、yangming chong、josh patterson。 jan - michael frahm、shu wu、matthew yu、peizhao zhang。 zijian he, p'eter vajda, ayush saraf, michael f. cohen。
One shot 3d photography. ACM Transactions on Graphics (TOG), 39:76:1 – 76:13, 2020. 撮影は3d撮影。 ACM Transactions on Graphics (TOG) 39:76:1 – 76:13, 2020。 0.54
1, 2, 3 [12] Hyeongmin Lee, Taeoh Kim, Tae-young Chung, Daehyun Pak, Yuseok Ban, and Sangyoun Lee. 1, 2, 3 【12】李百民、キムテオ、テヨンチュン、ダヒョンパク、バンユソク、リーさんぎん 0.68
Adacof: Adaptive collaboration of flows for video frame interpolation. adacof:ビデオフレーム補間のためのフローの適応協調。 0.83
In CVPR, pages 5316–5325, 2020. CVPRでは、2020年5316-5325頁。 0.66
2 [13] Tianye Li, Mira Slavcheva, Michael Zollhoefer, Simon Green, Christoph Lassner, Changil Kim, Tanner Schmidt, S. Lovegrove, Michael Goesele, and Zhaoyang Lv. 2 13] Tianye Li, Mira Slavcheva, Michael Zollhoefer, Simon Green, Christoph Lassner, Changil Kim, Tanner Schmidt, S. Lovegrove, Michael Goesele, Zhaoyang Lv。
訳抜け防止モード: 2 13] tianye li, mira slavcheva, michael zollhoefer, シモン・グリーン、クリストフ・ラスナー、チャンジル・キム、タナー・シュミット s. lovegrove、michael goesele、zhaoyang lv。
Neural 3d video synthesis. ニューラル3dビデオ合成。 0.77
ArXiv, abs/2103.02597, 2021. ArXiv, abs/2103.02597, 2021。 0.35
2 [14] Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, and William T Freeman. 2 14]Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Noah Snavely、Ce Liu、William T Freeman。
訳抜け防止モード: 2 14 ] zhengqi li, tali dekel, forrester cole, リチャード・タッカー、ノア・スナバリー、セ・リュー、ウィリアム・t・フリーマン。
Learning the depths of moving people by watching frozen people. 凍った人を見ることで人を動かすことの深さを学ぶ。 0.62
In CVPR, pages 4521–4530, 2019. CVPR』4521-4530頁、2019年。 0.67
2, 5, 6 [15] Zhengqi Li, Simon Niklaus, Noah Snavely, and Oliver Wang. 2, 5, 6 [15]Zhengqi Li、Simon Niklaus、Noah Snavely、Oliver Wang。 0.51
Neural scene flow fields for space-time view synthesis of dynamic scenes. 動的シーンの時空間ビュー合成のためのニューラルシーンフロー場 0.79
In CVPR, 2021. CVPR 2021年。 0.62
1, 2, 6 [16] Kai-En Lin, Lei Xiao, Feng Liu, Guowei Yang, and Ravi Ramamoorthi. 1, 2, 6 16]カイエンリン、レイ・シャオ、フェン・リウ、グウィ・ヤン、ラビ・ラマムーアティ 0.44
Deep 3d mask volume for view synthesis of dynamic scenes. ダイナミックシーンのビュー合成のための深部3dマスクボリューム 0.88
ArXiv, abs/2108.13408, 2021. ArXiv, abs/2108.13408, 2021 0.38
6, 7 [17] Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua, and Christian Theobalt. 6, 7 [17]Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua,Christian Theobalt。 0.40
Neural sparse voxel fields. 神経スパースボクセルフィールド。 0.50
Advances in Neural Information Processing Systems, 33:15651–15663, 2020. 神経情報処理システムの進歩 33:15651–15663, 2020 0.81
2 [18] Yihao Liu, Liangbin Xie, Li Siyao, Wenxiu Sun, Yu Qiao, and Chao Dong. 2 [18]ヨハオ・リョ、リョンビン・チエ、リ・シヤオ、ウェンキウ・サン、ユ・カイオ、チャオ・ドング。 0.43
Enhanced quadratic video interpolation, 2020. 強化された二次ビデオ補間、2020年。 0.49
2 [19] Oded Maimon and Lior Rokach. 2[19] Maimon と Lior Rokach の2つだ。 0.84
Data Mining And Knowledge データマイニングと知識 0.73
Discovery Handbook. 2005. 発見ハンドブック。 2005. 0.51
4 [20] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. 4 Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, Ren Ng.
訳抜け防止モード: 4 20 ]ben mildenhall, pratul p srinivasan, matthew tancik, ジョナサン・t・バロン(jonathan t barron)、ラヴィ・ラマムーアティ(ravi ramamoorthi)、レン・ヨン(ren ng)。
Nerf: Representing scenes as neural radiance fields for view synthesis. nerf: シーンを、ビュー合成のためのニューラルラミアンスフィールドとして表現する。 0.65
ECCV, 2020. ECCV、2020年。 0.87
2 [21] Simon Niklaus and Feng Liu. 2 [21]Simon NiklausとFeng Liu。 0.40
Softmax splatting for video frame interpolation. フレーム補間のためのソフトマックススプレイティング 0.57
In CVPR, pages 5436–5445, 2020. CVPR』5436-5445、2020年。 0.71
2, 5 [22] Simon Niklaus, Long Mai, and Feng Liu. 2, 5 [22] シモン・ニクラウス ロング・マイ フェン・リウ 0.40
Video frame interpolation via adaptive convolution. 適応的畳み込みによるビデオフレーム補間 0.79
In CVPR, pages 2270–2279, 2017. CVPR 2017年、2270-2279頁。 0.77
2 [23] Simon Niklaus, Long Mai, and Feng Liu. 2 [23]Simon Niklaus、Long Mai、Feng Liu。 0.37
Video frame interpolation via adaptive separable convolution. 適応的分離可能な畳み込みによるビデオフレーム補間 0.70
In ICCV, pages 261–270, 2017. ICCV、2017年261-270頁。 0.79
2 [24] Simon Niklaus, Long Mai, and Oliver Wang. 2 24]サイモン・ニクラウス ロング・マイ オリバー・ワン 0.42
Revisiting adaptive convolutions for video frame interpolation. ビデオフレーム補間における適応畳み込みの再検討 0.72
arXiv preprint arXiv:2011.01280, 2020. arxiv プレプリント arxiv:2011.01280, 2020 0.42
2 [25] Simon Niklaus, Long Mai, Jimei Yang, and F. Liu. 2 25]simon niklaus、long mai、jimei yang、f. liu。 0.44
3d ken burns effect from a single image. 3d kenは、単一の画像から効果を燃やす。 0.65
ACM TOG, 38:1 – 15, 2019. acm tog, 38:1 - 15 2019年。 0.73
1, 2 [26] Junheum Park, Keunsoo Ko, Chul Lee, and Chang-Su Kim. 1, 2 [26]Junheum Park、Keiunsoo Ko、Chul Lee、Chang-Su Kim。 0.57
Bmbc: Bilateral motion estimation with bilateral cost volume for video interpolation. Bmbc:ビデオ補間のための両側コスト容積を用いた両側運動推定 0.80
In ECCV, pages 109–125. ECCVでは109-125頁。 0.75
Springer, 2020. スプリンガー、2020年。 0.59
2 [27] Keunhong Park, U. Sinha, Jonathan T. Barron, Sofien Bouaziz, Dan B. Goldman, Steven M. Seitz, and Ricardo Mart´ın Brualla. 2 [27]Keunhong Park, U. Sinha, Jonathan T. Barron, Sofien Bouaziz, Dan B. Goldman, Steven M. Seitz, Ricardo Mart ́ın Brualla。
訳抜け防止モード: 2 [27 ]清華公園, U. Sinha, Jonathan T. Barron Sofien Bouaziz、Dan B. Goldman、Steven M. Seitz リカルド・マート(Ricardo Mart)とも。
Deformable neural radiance fields. 変形可能な神経放射場。 0.59
In ICCV, 2021. ICCV、2021年。 0.67
1, 2, 6 [28] Keunhong Park, U. Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B. Goldman, Ricardo Martin-Brualla, and Steven M. Seitz. 1, 2, 6 Keunhong Park, U. Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B. Goldman, Ricardo Martin-Brualla, そしてSteven M. Seitz。
訳抜け防止モード: 1, 2, 6 [28 ]Keunhong Park, U. Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B. Goldman, Ricardo Martin - Brualla スティーブン・M・セイッツ。
Hypernerf: A higher-dimensional representation for topologically varying neural radiance fields. Hypernerf: トポロジカルに変化する神経放射場の高次元表現。 0.75
SIGGRAPH Asia, abs/2106.13228, 2021. SIGGRAPH Asia, abs/2106.13228, 2021 0.41
1, 2 [29] Albert Pumarola, Enric Corona, Gerard Pons-Moll, and Francesc Moreno-Noguer. 1, 2 29] アルベルト・プマロラ、エンリク・コロナ、ジェラルド・ポンス=モール、フランチェスク・モレノ=ノガー。 0.46
D-nerf: Neural radiance fields for dynamic scenes. d-nerf: 動的シーンのためのニューラルラミアンスフィールド。 0.77
In CVPR, 2021. CVPR 2021年。 0.62
2, 6 [30] M. Usman Rafique, Hunter Blanton, Noah Snavely, and Nathan Jacobs. 2, 6 M. Usman Rafique、Hunter Blanton、Noah Snavely、Nathan Jacobs。 0.35
Generative appearance flow: A hybrid approach for outdoor view synthesis. 生成的外観フロー:屋外ビュー合成のためのハイブリッドアプローチ。 0.83
In BMVC, 2020. BMVC、2020年。 0.71
2 [31] Ren´e Ranftl, Alexey Bochkovskiy, and Vladlen Koltun. 2 He31] Ren ́e Ranftl, Alexey Bochkovskiy, Vladlen Koltun 0.39
Vision transformers for dense prediction. 密集予測のための視覚トランスフォーマー。 0.67
In ICCV, 2021. ICCV、2021年。 0.67
3, 4, 5, 6 3, 4, 5, 6 0.42
[32] Ren´e Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. He32] Ren ́e Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, Vladlen Koltun。 0.40
Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. 頑健な単眼深度推定に向けて:ゼロショットクロスデータセット転送のための混合データセット 0.70
IEEE TPAMI, 2020. IEEE TPAMI、2020年。 0.91
3 3 0.42
[49] Wenqi Xian, Jia-Bin Huang, Johannes Kopf, and Changil Kim. [49]Wengqi Xian、Jia-Bin Huang、Johannes Kopf、Changil Kim。 0.37
Space-time neural irradiance fields for free-viewpoint video. 自由視点ビデオのための時空間神経照射場 0.66
In CVPR, 2021. CVPR 2021年。 0.62
1, 2, 6 [50] Xiangyu Xu, Li Siyao, Wenxiu Sun, Qian Yin, and Ming- 1, 2, 6 [50]Xiangyu Xu,Li Siyao,Wenxiu Sun,Qian Yin,Ming 0.39
Hsuan Yang. hsuan yang氏。 0.57
Quadratic video interpolation, 2019. 四角形ビデオ補間、2019年。 0.52
2 [51] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. 2 [51]Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,William T Freeman。 0.39
Video enhancement with task-oriented flow. タスク指向フローによるビデオ強調 0.74
IJCV, 127(8):1106–1125, 2019. IJCV 127(8):1106–1125, 2019。 0.92
5, 6 [52] Jae Shin Yoon, Kihwan Kim, Orazio Gallo, Hyun Soo Park, and Jan Kautz. 5, 6 [52]ジェイ・シン・ユン、キフワン・キム、オラツィオ・ガロ、ヒョン・スパーク、ヤン・カウツ 0.71
Novel view synthesis of dynamic scenes with globally coherent depths from a monocular camera. モノクラーカメラからの世界的コヒーレントな深度を持つ動的シーンの新しいビュー合成 0.70
In CVPR, pages 5336–5345, 2020. CVPRでは、2020年5336-5345頁。 0.66
2, 6, 7 [53] Alex Yu, Vickie Ye, Matthew Tancik, and Angjoo Kanazawa. 2, 6, 7 [53]アレックス・ユ、ヴィッキー・イェ、マシュー・タンシク、アンジョオ・金沢 0.50
pixelnerf: Neural radiance fields from one or few images. pixelnerf: 1つまたは少数の画像からの神経放射場。 0.70
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4578–4587, 2021. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 4578–4587, 2021。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 4578-4587頁、2021年。
2 [54] Kai Zhang, Gernot Riegler, Noah Snavely, and Vladlen Koltun. 2[54] Kai Zhang, Gernot Riegler, Noah Snavely, Vladlen Koltun。 0.35
Nerf++: Analyzing and improving neural radiance fields. Nerf++: 神経放射場の解析と改善。 0.70
arXiv preprint arXiv:2010.07492, 2020. arxiv プレプリント arxiv:2010.07492, 2020 0.44
2 [55] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. 2 [55]Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman、Oliver Wang。 0.38
The unreasonable effectiveness of deep features as a perceptual metric. 深い特徴を知覚的計量として不合理な有効性を持つ。 0.57
In CVPR, pages 586–595, 2018. CVPR』586-595頁、2018年。 0.76
5, 6 [56] Tinghui Zhou, Richard Tucker, John Flynn, Graham Fyffe, and Noah Snavely. 5, 6 Tinghui Zhou氏、Richard Tucker氏、John Flynn氏、Graham Fyffe氏、Noah Snavely氏。 0.73
Stereo magnification: learning view synthesis using multiplane images. ステレオ拡大:多面体画像を用いた学習視点合成 0.78
ACM TOG, 37:1 – 12, 2018. acm tog、37:1 - 2018年12月。 0.62
2, 5 [57] C Lawrence Zitnick, Sing Bing Kang, Matthew Uyttendaele, Simon Winder, and Richard Szeliski. 2, 5 [57]cローレンス・ジトニック、ビング・カン、マシュー・ウイッテンダレ、サイモン・ウィンダー、リチャード・セリスキ。 0.47
High-quality video view interpolation using a layered representation. 層状表現を用いた高品質ビデオビュー補間 0.72
ACM TOG, 23(3):600–608, 2004. ACM TOG, 23(3):600-608, 2004 0.47
2 [33] Nikhila Ravi, Jeremy Reizenstein, David Novotny, Taylor Gordon, Wan-Yen Lo, Justin Johnson, and Georgia Gkioxari. 2 ニヒラ・ラビ、ジェレミー・レイゼンシュタイン、デイヴィッド・ノヴォトニー、テイラー・ゴードン、ワン・イェン・ロ、ジャスティン・ジョンソン、ジョージア・グキオクサーリ。 0.49
Accelerating 3d deep learning with pytorch3d. pytorch3dによる3dディープラーニングの高速化。 0.52
arXiv:2007.08501, 2020. arXiv:2007.08501, 2020 0.35
5 [34] Chris Rockwell, David F. Fouhey, and Justin Johnson. 5 34]クリス・ロックウェル、デヴィッド・f・フーヒー、ジャスティン・ジョンソン。 0.55
Pixelsynth: Generating a 3d-consistent experience from a single image. Pixelsynth: 単一のイメージから3D一貫性のあるエクスペリエンスを生成する。 0.66
In ICCV, 2021. ICCV、2021年。 0.67
2 [35] Robin Rombach, Patrick Esser, and Bj¨orn Ommer. 2 Robin Rombach氏、Patrick Esser氏、Bj sorn Ommer氏。 0.36
Geometryfree view synthesis: Transformers and no 3d priors. Geometryfree view synthesis: Transformers と no 3d priors。 0.86
In ICCV, 2021. ICCV、2021年。 0.67
2 [36] Johannes L Schonberger and Jan-Michael Frahm. 2 ヨハネス・フォン・フォンベルガーとヤン=マイケル・フラーム。 0.37
Structurefrom-motion revisited. In CVPR, pages 4104–4113, 2016. 移動構造の再検討。 CVPR』4104-4113頁、2016年。 0.63
6 [37] Jonathan Shade, Steven Gortler, Li-wei He, and Rick Szeliski. 6 Jonathan Shade氏、Steven Gortler氏、Li-wei He氏、Rick Szeliski氏。 0.54
Layered depth images. In SIGGRAPH, 1998. 層状深度画像。 1998年、SIGGRAPH。 0.70
3 [38] Meng-Li Shih, Shih-Yang Su, Johannes Kopf, and Jia-Bin Huang. 3 [38]Meng-Li Shih、Shih-Yang Su、Johannes Kopf、Jia-Bin Huang。 0.40
3d photography using context-aware layered depth inpainting. テクスチャ対応層状深度塗布による3D写真 0.64
In CVPR, pages 8028–8038, 2020. CVPR』8028-8038、2020年。 0.72
1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7 0.43
[39] Hyeonjun Sim, Jihyong Oh, and Munchurl Kim. [39]ヒョンジュン・シム、ジヒョン・オ、ムンチャル・キム 0.56
Xvfi: ex- treme video frame interpolation. xvfi: 元 treme video frame interpolation (英語) 0.69
In ICCV, 2021. ICCV、2021年。 0.67
2, 6, 7 [40] Pratul P Srinivasan, Richard Tucker, Jonathan T Barron, Ravi Ramamoorthi, Ren Ng, and Noah Snavely. 2, 6, 7 Pratul P Srinivasan氏、Richard Tucker氏、Jonathan T Barron氏、Ravi Ramamoorthi氏、Ren Ng氏、Noah Snavely氏。 0.57
Pushing the boundaries of view extrapolation with multiplane images. マルチプレーン画像によるビュー外挿の境界を押し上げる。 0.66
In CVPR, pages 175–184, 2019. CVPR』175-184頁、2019年。 0.74
2 [41] Timo Stich, Christian Linz, Georgia Albuquerque, and Marcus Magnor. 2 ティモ・スティッチ、クリスチャン・リンツ、ジョージア・アルバカーキ、マルクス・マグナー。 0.43
View and time interpolation in image space. 画像空間におけるビューと時間補間 0.80
In Computer Graphics Forum, volume 27, pages 1781–1787. コンピュータグラフィックスフォーラム』第27巻1781-1787頁。 0.65
Wiley Online Library, 2008. ウィリー・オンライン図書館、2008年。 0.49
2 [42] Zachary Teed and Jia Deng. 2 [42] ザカリー・ティードと ジア・デン 0.42
Raft: Recurrent all-pairs field In ECCV, pages 402–419. ラフト: 再帰する全ペアフィールド ECCV、ページ402-419。 0.65
transforms for optical flow. Springer, 2020. 光の流れの変換です スプリンガー、2020年。 0.70
3, 5, 6 [43] A. Tewari, O. Fried, J. Thies, V. Sitzmann, S. Lombardi, K. Sunkavalli, R. Martin-Brualla, T. Simon, J. Saragih, M. Nießner, R. Pandey, S. Fanello, G. Wetzstein, J. 3, 5, 6 [43] A. Tewari, O. Fried, J. Thies, V. Sitzmann, S. Lombardi, K. Sunkavalli, R. Martin-Brualla, T. Simon, J. Saragih, M. Nießner, R. Pandey, S. Fanello, G. Wetzstein, J。 0.43
-Y. Zhu, C. Theobalt, M. Agrawala, E. Shechtman, D. B Goldman, and M. Zollh¨ofer. -y。 Zhu, C. Theobalt, M. Agrawala, E. Shechtman, D. B Goldman, M. Zollh sofer 0.42
State of the Art on Neural Rendering. ニューラルレンダリング技術の現状 0.32
Computer Graphics Forum (EG STAR 2020), 2020. コンピュータグラフィックスフォーラム(EG STAR 2020)、2020年。 0.80
2 [44] Ayush Tewari, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar Tretschk, Yifan Wang, Christoph Lassner, Vincent Sitzmann, Ricardo Martin-Brualla, Stephen Lombardi, Tomas Simon, Christian Theobalt, Matthias Niessner, Jonathan T. Barron, Gordon Wetzstein, Michael Zollhoefer, and Vladislav Golyanik. 2 Ayush Tewari氏、Justus Thies氏、Ben Mildenhall氏、Pratul Srinivasan氏、Edgar Tretschk氏、Yifan Wang氏、Christoph Lassner氏、Vincent Sitzmann氏、Ricardo Martin-Brualla氏、Stephen Lombardi氏、Tomas Simon氏、Christian Theobalt氏、Matthias Niessner氏、Jonathan T. Barron氏、Gordon Wetzstein氏、Michael Zollhoefer氏、Vladislav Golyanik氏。
訳抜け防止モード: 2 44] アユシュ・テワリ ジャストゥス・ティーズ ベン・ミルデンホール pratul srinivasan, edgar tretschk, yifan wang, christoph lassner, ヴィンセント・シッツマン(vincent sitzmann)、リカルド・マーティン(ricardo martin)、ブルーラ(brualla)、スティーブン・ロンバルディ(stephen lombardi)、トマス・サイモン(tomas simon)。 クリスチャン・テオバルト、マティアス・ニースナー、ジョナサン・t・バロン、ゴードン・ウェッツスタイン michael zollhoefer氏とvladislav golyanik氏。
Advances in neural rendering, 2021. 神経レンダリングの進歩、2021年。 0.67
2 [45] Richard Tucker and Noah Snavely. 2 45] リチャード・タッカーとノア・スナヴァリー 0.49
Single-view view synthe- シングルビュービュー合成 0.83
sis with multiplane images. マルチプレーン画像付きsis。 0.42
In CVPR, June 2020. 2020年6月、CVPR。 0.75
2 [46] Shubham Tulsiani, Richard Tucker, and Noah Snavely. 2 46] Shubham Tulsiani、Richard Tucker、Noah Snavely。 0.37
Layerstructured 3d scene inference via view synthesis. ビュー合成による階層構造3次元シーン推論。 0.72
In ECCV, pages 302–317, 2018. ECCV』302-317頁、2018年。 0.75
2 [47] Qianqian Wang, Zhicheng Wang, Kyle Genova, Pratul Srinivasan, Howard Zhou, Jonathan T. Barron, Ricardo MartinBrualla, Noah Snavely, and Thomas Funkhouser. 2 [47]Qianqian Wang, Zhicheng Wang, Kyle Genova, Pratul Srinivasan, Howard Zhou, Jonathan T. Barron, Ricardo MartinBrualla, Noah Snavely, Thomas Funkhouser。
訳抜け防止モード: 2 47] キアンキアン・ワン、ジチェン・ワン、カイル・ジェノヴァ pratul srinivasan, howard zhou, jonathan t. barron, ricardo martinbrualla, noah snavelyとthomas funkhouserだ。
Ibrnet: Learning multi-view image-based rendering. ibrnet: 多視点イメージベースのレンダリングの学習。 0.60
In CVPR, 2021. CVPR 2021年。 0.62
2 [48] Olivia Wiles, Georgia Gkioxari, R. Szeliski, and J. Johnson. 2 [48] オリビア・ウィルズ、ジョージア・グキオクサリ、r・セリスキ、j・ジョンソン 0.52
Synsin: End-to-end view synthesis from a single image. Synsin: 単一のイメージからエンドツーエンドのビュー合成。 0.78
CVPR, pages 7465–7475, 2020. CVPR、7465-7475、2020年。 0.77
2, 5 2, 5 0.42

翻訳にはFugu-Machine Translatorを利用しています。