Fugu-MT 論文翻訳(概要): Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

論文の概要: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

arxiv url: http://arxiv.org/abs/2310.12474v4
Date: Thu, 18 Jan 2024 05:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 13:26:10.865021
Title: Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping
Title（参考訳）: 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進
Authors: Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang
Abstract要約: 高解像度の3Dオブジェクト生成は、包括的な注釈付きトレーニングデータの入手が限られているため、依然として困難な課題である。近年の進歩は、広範囲なキュレートされたWebデータセットに事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。本稿では,既存の3次元生成モデルへのシームレスな統合を目的とした,Pixel-wise Gradient Clipping (PGC) と呼ばれる革新的な操作を提案する。
参考スコア（独自算出の注目度）: 46.364968008574664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.
Abstract（参考訳）: 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。

関連論文リスト

RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。 RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文参考訳（メタデータ） (2025-08-05T04:50:29Z)
HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文参考訳（メタデータ） (2025-03-27T09:45:09Z)
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。 3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文参考訳（メタデータ） (2025-02-10T16:07:54Z)
SuperNeRF-GAN: A Universal 3D-Consistent Super-Resolution Framework for Efficient and Enhanced 3D-Aware Image Synthesis [59.73403876485574]
本稿では,3次元連続超解像のための汎用フレームワークであるSuperNeRF-GANを提案する。 SuperNeRF-GANの重要な特徴は、NeRFベースの3D認識画像合成手法とのシームレスな統合である。実験により, 提案手法の効率性, 3次元整合性, 品質が示された。
論文参考訳（メタデータ） (2025-01-12T10:31:33Z)
Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文参考訳（メタデータ） (2024-12-31T21:23:08Z)
Towards Degradation-Robust Reconstruction in Generalizable NeRF [58.33351079982745]
GNeRF(Generalizable Radiance Field)は,シーンごとの最適化を回避する手段として有効であることが証明されている。 GNeRFの強靭性は, ソース画像に現れる様々な種類の劣化に対して限定的に研究されている。
論文参考訳（メタデータ） (2024-11-18T16:13:47Z)
Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文参考訳（メタデータ） (2024-11-17T03:14:50Z)
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-02T02:27:58Z)
VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文参考訳（メタデータ） (2023-10-23T01:41:38Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文参考訳（メタデータ） (2023-03-26T12:03:18Z)
Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文参考訳（メタデータ） (2022-10-08T17:58:20Z)
Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文参考訳（メタデータ） (2022-08-26T10:05:39Z)
AE-NeRF: Auto-Encoding Neural Radiance Fields for 3D-Aware Object Manipulation [24.65896451569795]
我々は,AE-NeRF(Auto-Aware Neural Radiance Fields)と呼ばれる3次元物体操作のための新しいフレームワークを提案する。我々のモデルは自動エンコーダアーキテクチャで定式化され、画像から3次元形状、外観、カメラポーズなどの不整形3D属性を抽出する。歪み生成ニューラルレージアンスフィールド(NeRF)による特性から高品質な画像が描画される
論文参考訳（メタデータ） (2022-04-28T11:50:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。