論文の概要: Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation
- arxiv url: http://arxiv.org/abs/2501.13087v1
- Date: Wed, 22 Jan 2025 18:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:11.752914
- Title: Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation
- Title(参考訳): Orchid: 関節外見と幾何学生成のための画像遅延拡散
- Authors: Akshay Krishnan, Xinchen Yan, Vincent Casser, Abhijit Kundu,
- Abstract要約: 外観と幾何学を結合的に符号化する新しい画像拡散法を提案する。
Orchidはユーザが提供するテキストから直接カラー画像、相対深度、表面の正常値を生成し、画像に整合した部分的な3Dシーンをシームレスに作成することができる。
我々のモデルは、外見と幾何学を絡める多くの逆問題に対する正則化器としてゼロショットを使用できるジョイントを前もって学習する。
- 参考スコア(独自算出の注目度): 9.477740758741998
- License:
- Abstract: Diffusion models are state-of-the-art for image generation. Trained on large datasets, they capture expressive image priors that have been used for tasks like inpainting, depth, and (surface) normal prediction. However, these models are typically trained for one specific task, e.g., a separate model for each of color, depth, and normal prediction. Such models do not leverage the intrinsic correlation between appearance and geometry, often leading to inconsistent predictions. In this paper, we propose using a novel image diffusion prior that jointly encodes appearance and geometry. We introduce a diffusion model Orchid, comprising a Variational Autoencoder (VAE) to encode color, depth, and surface normals to a latent space, and a Latent Diffusion Model (LDM) for generating these joint latents. Orchid directly generates photo-realistic color images, relative depth, and surface normals from user-provided text, and can be used to create image-aligned partial 3D scenes seamlessly. It can also perform image-conditioned tasks like joint monocular depth and normal prediction and is competitive in accuracy to state-of-the-art methods designed for those tasks alone. Lastly, our model learns a joint prior that can be used zero-shot as a regularizer for many inverse problems that entangle appearance and geometry. For example, we demonstrate its effectiveness in color-depth-normal inpainting, showcasing its applicability to problems in 3D generation from sparse views.
- Abstract(参考訳): 拡散モデルは画像生成のための最先端技術である。
大規模なデータセットに基づいてトレーニングされ、インペイント、深さ、(表面)正常な予測といったタスクに使用される、表現力のある画像の先行をキャプチャする。
しかしながら、これらのモデルは通常、1つの特定のタスク、例えば色、深さ、正常な予測のそれぞれのための別々のモデルのために訓練される。
このようなモデルは外観と幾何学の本質的な相関を利用せず、しばしば矛盾した予測をもたらす。
本稿では、外観と幾何学を共同で符号化する新しい画像拡散手法を提案する。
本研究では,変分オートエンコーダ(VAE)を用いて色,深さ,表面の正規分布を潜在空間にエンコードする拡散モデルOrchidと,これらの共振子を生成する潜在拡散モデル(LDM)を導入する。
Orchidは、ユーザが提供するテキストから直接、フォトリアリスティックなカラー画像、相対深度、表面の正常値を生成し、画像に整合した部分的な3Dシーンをシームレスに作成することができる。
また、ジョイントモノクラー深度や通常の予測のようなイメージコンディショニングされたタスクも実行でき、それらのタスクだけのために設計された最先端の手法と精度で競合する。
最後に、我々のモデルは、外観と幾何学を絡める多くの逆問題に対する正則化器としてゼロショットを使用できるジョイントを前もって学習する。
例えば、色深度正規塗布におけるその効果を実証し、スパースビューからの3次元生成問題への適用性を示す。
関連論文リスト
- GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Taming Latent Diffusion Model for Neural Radiance Field Inpainting [63.297262813285265]
ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。
本研究では,シーンごとのカスタマイズによる拡散モデルの傾向の緩和と,マスキングトレーニングによるテクスチャシフトの緩和を提案する。
我々のフレームワークは、様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。
論文 参考訳(メタデータ) (2024-04-15T17:59:57Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail
Richness in Text-to-3D [31.77212284992657]
我々は3次元生成のための一般化可能な正規-深度拡散モデルを学ぶ。
アルベド拡散モデルを導入し、アルベド成分にデータ駆動的制約を課す。
実験の結果,既存のテキスト・ツー・3Dパイプラインに組み込むと,モデルのリッチさが著しく向上することがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:22:33Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。