論文の概要: Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images
- arxiv url: http://arxiv.org/abs/2302.10781v1
- Date: Tue, 21 Feb 2023 16:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:37:38.264997
- Title: Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images
- Title(参考訳): 自己教師付き拡散による3次元映像の学習
- Authors: Xiaodong Wang, Chenfei Wu, Shengming Yin, Minheng Ni, Jianfeng Wang,
Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang,
Nan Duan
- Abstract要約: 3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
- 参考スコア(独自算出の注目度): 105.81348348510551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D photography renders a static image into a video with appealing 3D visual
effects. Existing approaches typically first conduct monocular depth
estimation, then render the input frame to subsequent frames with various
viewpoints, and finally use an inpainting model to fill those missing/occluded
regions. The inpainting model plays a crucial role in rendering quality, but it
is normally trained on out-of-domain data. To reduce the training and inference
gap, we propose a novel self-supervised diffusion model as the inpainting
module. Given a single input image, we automatically construct a training pair
of the masked occluded image and the ground-truth image with random
cycle-rendering. The constructed training samples are closely aligned to the
testing instances, without the need of data annotation. To make full use of the
masked images, we design a Masked Enhanced Block (MEB), which can be easily
plugged into the UNet and enhance the semantic conditions. Towards real-world
animation, we present a novel task: out-animation, which extends the space and
time of input objects. Extensive experiments on real datasets show that our
method achieves competitive results with existing SOTA methods.
- Abstract(参考訳): 3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画し、最後にその欠落した領域を埋めるために塗装モデルを使用する。
インペインティングモデルは、品質のレンダリングにおいて重要な役割を果たすが、通常はドメイン外データでトレーニングされる。
トレーニングと推論のギャップを低減するため,本モジュールとして自己教師付き拡散モデルを提案する。
1つの入力画像が与えられたとき、マスク付きオクルード画像と接地画像のトレーニングペアをランダムなサイクルレンダリングで自動的に構築する。
構築されたトレーニングサンプルは、データアノテーションを必要とせずに、テストインスタンスと密接に一致します。
マスクされた画像をフル活用するために,UNetに簡単に接続可能なMasked Enhanced Block (MEB) を設計し,セマンティック条件を強化する。
実世界のアニメーションに向けて,入力オブジェクトの空間と時間を拡張する,アウトアニメーションという新しいタスクを提案する。
実データセットに対する大規模な実験により,既存のSOTA法と競合する結果が得られた。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Using Adaptive Gradient for Texture Learning in Single-View 3D
Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。
本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。
また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-04-29T07:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。