論文の概要: Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion
- arxiv url: http://arxiv.org/abs/2304.10535v1
- Date: Thu, 20 Apr 2023 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 11:59:21.707560
- Title: Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion
- Title(参考訳): Farm3D:2D拡散による人工3D動物の学習
- Authors: Tomas Jakab, Ruining Li, Shangzhe Wu, Christian Rupprecht, Andrea
Vedaldi
- Abstract要約: 我々は,「自由」な仮想監督から,音声オブジェクトのカテゴリー別3D再構成を学習するFarm3Dを提案する。
近年のアプローチでは,物体の3次元形状,アルベド,照明,物体発生の視点を予測するための単眼ネットワークである,対象カテゴリの単一視点画像の集合から学習することができる。
本研究では、安定拡散のような画像生成装置を用いて、そのような再構成ネットワークをスクラッチから学習するための仮想トレーニングデータを生成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.63322697335228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Farm3D, a method to learn category-specific 3D reconstructors for
articulated objects entirely from "free" virtual supervision from a pre-trained
2D diffusion-based image generator. Recent approaches can learn, given a
collection of single-view images of an object category, a monocular network to
predict the 3D shape, albedo, illumination and viewpoint of any object
occurrence. We propose a framework using an image generator like Stable
Diffusion to generate virtual training data for learning such a reconstruction
network from scratch. Furthermore, we include the diffusion model as a score to
further improve learning. The idea is to randomise some aspects of the
reconstruction, such as viewpoint and illumination, generating synthetic views
of the reconstructed 3D object, and have the 2D network assess the quality of
the resulting image, providing feedback to the reconstructor. Different from
work based on distillation which produces a single 3D asset for each textual
prompt in hours, our approach produces a monocular reconstruction network that
can output a controllable 3D asset from a given image, real or generated, in
only seconds. Our network can be used for analysis, including monocular
reconstruction, or for synthesis, generating articulated assets for real-time
applications such as video games.
- Abstract(参考訳): 我々は,事前学習した2次元拡散画像生成装置から,映像の「自由」な仮想的監視から,カテゴリー別3次元再構成を学習するFarm3Dを提案する。
最近のアプローチでは、オブジェクトカテゴリの単眼画像の集合と、任意のオブジェクトの発生の3d形状、アルベド、照明、視点を予測する単眼ネットワークから学ぶことができる。
本稿では,そのような再構成ネットワークをスクラッチから学習するための仮想トレーニングデータを生成するために,安定拡散のような画像生成器を用いたフレームワークを提案する。
さらに,さらに学習を改善するためのスコアとして拡散モデルを含める。
この考え方は、視点や照明などの再構成のいくつかの側面をランダム化し、再構成された3Dオブジェクトの合成ビューを生成し、2Dネットワークに画像の品質を評価し、再構成者にフィードバックを提供することである。
本手法は, テキストプロンプト毎に1つの3dアセットを数時間で生成する蒸留作業と異なり, 任意の画像, 実画像, 生成画像から制御可能な3dアセットを, わずか数秒で出力できる単眼再構成ネットワークを生成する。
本ネットワークは,単眼的再構成や合成などの解析や,ビデオゲームなどのリアルタイムアプリケーションのための明瞭なアセット生成に使用することができる。
関連論文リスト
- Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - 2D GANs Meet Unsupervised Single-view 3D Reconstruction [21.93671761497348]
事前訓練されたGANに基づく制御可能な画像生成は、幅広いコンピュータビジョンタスクに役立てることができる。
本稿では,GAN生成した多視点画像から2次元の監視を活用できる新しい画像条件のニューラル暗黙界を提案する。
提案手法の有効性は,ジェネリックオブジェクトのより優れた1次元3次元再構成結果によって示される。
論文 参考訳(メタデータ) (2022-07-20T20:24:07Z) - Style Agnostic 3D Reconstruction via Adversarial Style Transfer [23.304453155586312]
物体の3次元形状を画像から再構成することは、コンピュータビジョンにおける大きな課題である。
本研究では,背景を持つ画像から3次元物体を識別可能な学習法を提案する。
論文 参考訳(メタデータ) (2021-10-20T21:24:44Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。