論文の概要: Towards a Neural Graphics Pipeline for Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2006.10569v2
- Date: Mon, 22 Feb 2021 09:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:00:12.539384
- Title: Towards a Neural Graphics Pipeline for Controllable Image Generation
- Title(参考訳): 制御可能な画像生成のためのニューラルネットワークパイプラインに向けて
- Authors: Xuelin Chen, Daniel Cohen-Or, Baoquan Chen and Niloy J. Mitra
- Abstract要約: ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 96.11791992084551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we leverage advances in neural networks towards forming a
neural rendering for controllable image generation, and thereby bypassing the
need for detailed modeling in conventional graphics pipeline. To this end, we
present Neural Graphics Pipeline (NGP), a hybrid generative model that brings
together neural and traditional image formation models. NGP decomposes the
image into a set of interpretable appearance feature maps, uncovering direct
control handles for controllable image generation. To form an image, NGP
generates coarse 3D models that are fed into neural rendering modules to
produce view-specific interpretable 2D maps, which are then composited into the
final output image using a traditional image formation model. Our approach
offers control over image generation by providing direct handles controlling
illumination and camera parameters, in addition to control over shape and
appearance variations. The key challenge is to learn these controls through
unsupervised training that links generated coarse 3D models with unpaired real
images via neural and traditional (e.g., Blinn- Phong) rendering functions,
without establishing an explicit correspondence between them. We demonstrate
the effectiveness of our approach on controllable image generation of
single-object scenes. We evaluate our hybrid modeling framework, compare with
neural-only generation methods (namely, DCGAN, LSGAN, WGAN-GP, VON, and SRNs),
report improvement in FID scores against real images, and demonstrate that NGP
supports direct controls common in traditional forward rendering. Code is
available at http://geometry.cs.ucl.ac.uk/projects/2021/ngp.
- Abstract(参考訳): 本稿では、制御可能な画像生成のためのニューラルレンダリングの構築に向けたニューラルネットワークの進歩を活用し、従来のグラフィックスパイプラインにおける詳細なモデリングの必要性を回避した。
この目的のために、ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルであるNeural Graphics Pipeline(NGP)を提案する。
NGPは、画像を解釈可能な外観特徴マップに分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
画像を形成するために、NGPはニューラルネットワークレンダリングモジュールに入力された粗い3Dモデルを生成し、ビュー固有の解釈可能な2Dマップを生成し、その後、従来の画像形成モデルを使用して最終出力画像に合成する。
本手法は,照明やカメラのパラメータを制御する直接ハンドルと,形状や外観のバリエーションを制御することで画像生成を制御する。
重要な課題は、生成した粗い3dモデルと、ニューラルネットワークや従来の(例えばblinn-phong)レンダリング機能を介して、それらの間の明示的な対応を確立することなく、非教師なしのトレーニングを通じてこれらのコントロールを学ぶことだ。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を示す。
我々は、ニューラルネットワークのみの生成手法(DCGAN、LSGAN、WGAN-GP、VON、SRN)と比較し、実画像に対するFIDスコアの改善を報告し、NGPが従来の前方レンダリングで一般的な直接制御をサポートすることを示す。
コードはhttp://geometry.cs.ucl.ac.uk/projects/2021/ngpで入手できる。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
PerlDiffは、3次元幾何学情報を完全に活用した効果的なストリートビュー画像生成手法である。
この結果から,我々のPerlDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Controlling the Output of a Generative Model by Latent Feature Vector
Shifting [0.0]
制御された出力画像修正のための遅延ベクトルシフトのための新しい手法を提案する。
提案手法では,リアルな人間の顔の画像を生成するStyleGAN3の事前学習モデルを用いている。
我々の潜在特徴シフト器は、生成モデルの潜在ベクトルを特定の特徴方向にシフトさせるタスクを備えたニューラルネットワークモデルである。
論文 参考訳(メタデータ) (2023-11-15T10:42:06Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。