論文の概要: Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement
- arxiv url: http://arxiv.org/abs/2512.08215v1
- Date: Tue, 09 Dec 2025 03:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.797008
- Title: Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement
- Title(参考訳): Blur2Sharp: 生成前のリファインメントによる人間の新しい詩とビューの合成
- Authors: Chia-Hern Lai, I-Hsuan Lo, Yen-Ku Yeh, Thanh-Nguyen Truong, Ching-Chun Huang,
- Abstract要約: Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。
まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
- 参考スコア(独自算出の注目度): 6.91111219679588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The creation of lifelike human avatars capable of realistic pose variation and viewpoint flexibility remains a fundamental challenge in computer vision and graphics. Current approaches typically yield either geometrically inconsistent multi-view images or sacrifice photorealism, resulting in blurry outputs under diverse viewing angles and complex motions. To address these issues, we propose Blur2Sharp, a novel framework integrating 3D-aware neural rendering and diffusion models to generate sharp, geometrically consistent novel-view images from only a single reference view. Our method employs a dual-conditioning architecture: initially, a Human NeRF model generates geometrically coherent multi-view renderings for target poses, explicitly encoding 3D structural guidance. Subsequently, a diffusion model conditioned on these renderings refines the generated images, preserving fine-grained details and structural fidelity. We further enhance visual quality through hierarchical feature fusion, incorporating texture, normal, and semantic priors extracted from parametric SMPL models to simultaneously improve global coherence and local detail accuracy. Extensive experiments demonstrate that Blur2Sharp consistently surpasses state-of-the-art techniques in both novel pose and view generation tasks, particularly excelling under challenging scenarios involving loose clothing and occlusions.
- Abstract(参考訳): 現実的なポーズのバリエーションと視点の柔軟性を持つ人間のようなアバターの作成は、コンピュータビジョンとグラフィックスの基本的な課題である。
現在のアプローチは通常、幾何学的に矛盾しない多視点像またはフォトリアリズムを犠牲にし、様々な視角と複雑な動きの下でぼやけた出力をもたらす。
これらの問題に対処するために,Blur2Sharpを提案する。これは3次元認識型ニューラルレンダリングと拡散モデルを統合した,シャープで幾何学的に一貫した新しいビュー画像を単一の参照ビューから生成するフレームワークである。
提案手法では,まず,対象のポーズに対する幾何的コヒーレントなマルチビューレンダリングを生成し,3次元構造的ガイダンスを明示的に符号化する。
その後、これらのレンダリングに条件付けされた拡散モデルにより生成された画像が洗練され、微細な詳細と構造的忠実さが保存される。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
大規模な実験では、Blur2Sharpは、新しいポーズとビュー生成タスクの両方において、常に最先端のテクニックを超越している。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Generalizable Neural Performer: Learning Robust Radiance Fields for
Human Novel View Synthesis [52.720314035084215]
この研究は、一般のディープラーニングフレームワークを使用して、任意の人間の演奏者の自由視点画像を合成することを目的としている。
我々は、汎用的で堅牢な神経体表現を学習するシンプルな、かつ強力なフレームワーク、Generalizable Neural Performer(GNR)を提案する。
GeneBody-1.0とZJU-Mocapの実験は、最近の最先端の一般化可能な手法よりも、我々の手法の堅牢性を示している。
論文 参考訳(メタデータ) (2022-04-25T17:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。