論文の概要: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient
Clipping
- arxiv url: http://arxiv.org/abs/2310.12474v4
- Date: Thu, 18 Jan 2024 05:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 13:26:10.865021
- Title: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient
Clipping
- Title(参考訳): 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進
- Authors: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
- Abstract要約: 高解像度の3Dオブジェクト生成は、包括的な注釈付きトレーニングデータの入手が限られているため、依然として困難な課題である。
近年の進歩は、広範囲なキュレートされたWebデータセットに事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。
本稿では,既存の3次元生成モデルへのシームレスな統合を目的とした,Pixel-wise Gradient Clipping (PGC) と呼ばれる革新的な操作を提案する。
- 参考スコア(独自算出の注目度): 46.364968008574664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.
- Abstract(参考訳): 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。
最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。
高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。
このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。
しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。
画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。
そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。
具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。
このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。
関連論文リスト
- SRGS: Super-Resolution 3D Gaussian Splatting [14.26021476067791]
本稿では,高分解能(HR)空間における最適化を実現するために,超解像3Dガウススティング(SRGS)を提案する。
サブピクセル制約はHR空間における視点の増大のために導入され、多重低解像度(LR)ビューのサブピクセル・クロスビュー情報を利用する。
MIP-NeRF 360 や Tanks & Temples のような挑戦的なデータセットにおいて,HRNVS のレンダリング品質は LR 入力のみで向上する。
論文 参考訳(メタデータ) (2024-04-16T06:58:30Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - AE-NeRF: Auto-Encoding Neural Radiance Fields for 3D-Aware Object
Manipulation [24.65896451569795]
我々は,AE-NeRF(Auto-Aware Neural Radiance Fields)と呼ばれる3次元物体操作のための新しいフレームワークを提案する。
我々のモデルは自動エンコーダアーキテクチャで定式化され、画像から3次元形状、外観、カメラポーズなどの不整形3D属性を抽出する。
歪み生成ニューラルレージアンスフィールド(NeRF)による特性から高品質な画像が描画される
論文 参考訳(メタデータ) (2022-04-28T11:50:18Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。