論文の概要: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient
Clipping
- arxiv url: http://arxiv.org/abs/2310.12474v4
- Date: Thu, 18 Jan 2024 05:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 13:26:10.865021
- Title: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient
Clipping
- Title(参考訳): 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進
- Authors: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
- Abstract要約: 高解像度の3Dオブジェクト生成は、包括的な注釈付きトレーニングデータの入手が限られているため、依然として困難な課題である。
近年の進歩は、広範囲なキュレートされたWebデータセットに事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。
本稿では,既存の3次元生成モデルへのシームレスな統合を目的とした,Pixel-wise Gradient Clipping (PGC) と呼ばれる革新的な操作を提案する。
- 参考スコア(独自算出の注目度): 46.364968008574664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution 3D object generation remains a challenging task primarily due
to the limited availability of comprehensive annotated training data. Recent
advancements have aimed to overcome this constraint by harnessing image
generative models, pretrained on extensive curated web datasets, using
knowledge transfer techniques like Score Distillation Sampling (SDS).
Efficiently addressing the requirements of high-resolution rendering often
necessitates the adoption of latent representation-based models, such as the
Latent Diffusion Model (LDM). In this framework, a significant challenge
arises: To compute gradients for individual image pixels, it is necessary to
backpropagate gradients from the designated latent space through the frozen
components of the image model, such as the VAE encoder used within LDM.
However, this gradient propagation pathway has never been optimized, remaining
uncontrolled during training. We find that the unregulated gradients adversely
affect the 3D model's capacity in acquiring texture-related information from
the image generative model, leading to poor quality appearance synthesis. To
address this overarching challenge, we propose an innovative operation termed
Pixel-wise Gradient Clipping (PGC) designed for seamless integration into
existing 3D generative models, thereby enhancing their synthesis quality.
Specifically, we control the magnitude of stochastic gradients by clipping the
pixel-wise gradients efficiently, while preserving crucial texture-related
gradient directions. Despite this simplicity and minimal extra cost, extensive
experiments demonstrate the efficacy of our PGC in enhancing the performance of
existing 3D generative models for high-resolution object rendering.
- Abstract(参考訳): 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。
最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。
高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。
このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。
しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。
画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。
そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。
具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。
このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは入力画像に正確に対応して高忠実度3Dメッシュを生成することができる新しいパラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部を拡大し、入力した現在年齢に対して例外的な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - SuperNeRF-GAN: A Universal 3D-Consistent Super-Resolution Framework for Efficient and Enhanced 3D-Aware Image Synthesis [59.73403876485574]
本稿では,3次元連続超解像のための汎用フレームワークであるSuperNeRF-GANを提案する。
SuperNeRF-GANの重要な特徴は、NeRFベースの3D認識画像合成手法とのシームレスな統合である。
実験により, 提案手法の効率性, 3次元整合性, 品質が示された。
論文 参考訳(メタデータ) (2025-01-12T10:31:33Z) - Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。
本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文 参考訳(メタデータ) (2024-12-31T21:23:08Z) - Towards Degradation-Robust Reconstruction in Generalizable NeRF [58.33351079982745]
GNeRF(Generalizable Radiance Field)は,シーンごとの最適化を回避する手段として有効であることが証明されている。
GNeRFの強靭性は, ソース画像に現れる様々な種類の劣化に対して限定的に研究されている。
論文 参考訳(メタデータ) (2024-11-18T16:13:47Z) - Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - AE-NeRF: Auto-Encoding Neural Radiance Fields for 3D-Aware Object
Manipulation [24.65896451569795]
我々は,AE-NeRF(Auto-Aware Neural Radiance Fields)と呼ばれる3次元物体操作のための新しいフレームワークを提案する。
我々のモデルは自動エンコーダアーキテクチャで定式化され、画像から3次元形状、外観、カメラポーズなどの不整形3D属性を抽出する。
歪み生成ニューラルレージアンスフィールド(NeRF)による特性から高品質な画像が描画される
論文 参考訳(メタデータ) (2022-04-28T11:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。