Fugu-MT 論文翻訳(概要): HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion

論文の概要: HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion

arxiv url: http://arxiv.org/abs/2501.15008v1
Date: Sat, 25 Jan 2025 01:00:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.472609
Title: HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion
Title（参考訳）: HuGDiffusion:3Dガウス拡散による一般的な単一画像レンダリング
Authors: Yingzhi Tang, Qijian Zhang, Junhui Hou,
Abstract要約: HuGDiffusionは、シングルビュー入力画像から人間の文字の新しいビュー合成(NVS)を実現するための学習パイプラインである。本研究では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。我々のHuGDiffusionは最先端の手法よりも優れた性能を示している。
参考スコア（独自算出の注目度）: 50.02316409061741
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present HuGDiffusion, a generalizable 3D Gaussian splatting (3DGS) learning pipeline to achieve novel view synthesis (NVS) of human characters from single-view input images. Existing approaches typically require monocular videos or calibrated multi-view images as inputs, whose applicability could be weakened in real-world scenarios with arbitrary and/or unknown camera poses. In this paper, we aim to generate the set of 3DGS attributes via a diffusion-based framework conditioned on human priors extracted from a single image. Specifically, we begin with carefully integrated human-centric feature extraction procedures to deduce informative conditioning signals. Based on our empirical observations that jointly learning the whole 3DGS attributes is challenging to optimize, we design a multi-stage generation strategy to obtain different types of 3DGS attributes. To facilitate the training process, we investigate constructing proxy ground-truth 3D Gaussian attributes as high-quality attribute-level supervision signals. Through extensive experiments, our HuGDiffusion shows significant performance improvements over the state-of-the-art methods. Our code will be made publicly available.
Abstract（参考訳）: 本稿では,HuGDiffusionについて述べる。HuGDiffusionは汎用的な3Dガウススプラッティング(3DGS)学習パイプラインで,一視点入力画像から人間の文字の新たなビュー合成(NVS)を実現する。既存のアプローチでは、通常、モノクロビデオやキャリブレーションされたマルチビューイメージを入力として必要としており、任意のカメラポーズや未知のカメラポーズを持つ現実世界のシナリオでは適用性が低下する可能性がある。本稿では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。具体的には、情報伝達条件を推定するために、人間中心の特徴抽出手順を慎重に統合することから始める。 3DGS属性全体を共同で学習することは、最適化が難しいという経験的観察に基づいて、異なるタイプの3DGS属性を得るための多段階生成戦略を設計する。トレーニングプロセスの容易化を目的として,高品質な属性レベル監視信号として3次元ガウス属性を代用する手法について検討した。広範な実験を通じて、HuGDiffusionは最先端の手法よりも優れた性能を示している。私たちのコードは公開されます。

関連論文リスト

EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images [39.03889696169877]
RoGSplatは、スパースマルチビュー画像から見えない人間の高忠実な新しいビューを合成するための新しいアプローチである。提案手法は,新しいビュー合成とクロスデータセットの一般化において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-03-18T12:18:34Z)
MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。 T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-03-11T09:37:15Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images [20.089890859122168]
我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。 UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
論文参考訳（メタデータ） (2024-10-17T03:48:02Z)
EVA-Gaussian: 3D Gaussian-based Real-time Human Novel View Synthesis under Diverse Camera Settings [11.248908608011941]
EVA-Gaussianは、多様なカメラ設定にまたがる3D人間の新しいビュー合成のためのリアルタイムパイプラインである。本稿では,ソース画像から各3次元ガウスの位置を正確に推定するために,EVA (Efficient Cross-View Attention) モジュールを提案する。我々は3次元ガウス属性と人間の顔のランドマークの両方に強力なアンカー損失関数を組み込んだ。
論文参考訳（メタデータ） (2024-10-02T11:23:08Z)
WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2024-06-04T15:17:37Z)
3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文参考訳（メタデータ） (2024-03-17T06:31:16Z)
MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic 3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文参考訳（メタデータ） (2023-12-15T11:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。