論文の概要: Real-Time Human Frontal View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2603.15433v1
- Date: Mon, 16 Mar 2026 15:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.548379
- Title: Real-Time Human Frontal View Synthesis from a Single Image
- Title(参考訳): 単一画像からのリアルタイムヒューマンフロントビュー合成
- Authors: Fangyu Lin, Yingdong Hu, Lunjie Zhu, Zhening Liu, Yushi Huang, Zehong Lin, Jun Zhang,
- Abstract要約: 没入型3Dテレプレゼンスを民主化するためには、単一の画像から光現実的なヒューマンビューを合成することが不可欠である。
本研究では,1つの画像から正面視を瞬時に合成するための幾何学誘導フレームワークであるPrismMirrorを提案する。
PrismMirrorは24FPSでリアルタイムな推論を実現する最初の単眼人間の正面視合成モデルである。
- 参考スコア(独自算出の注目度): 15.31754211648905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photorealistic human novel view synthesis from a single image is crucial for democratizing immersive 3D telepresence, eliminating the need for complex multi-camera setups. However, current rendering-centric methods prioritize visual fidelity over explicit geometric understanding and struggle with intricate regions like faces and hands, leading to temporal instability. Meanwhile, human-centric frameworks suffer from memory bottlenecks since they typically rely on an auxiliary model to provide informative structural priors for geometric modeling, which limits real-time performance. To address these challenges, we propose PrismMirror, a geometry-guided framework for instant frontal view synthesis from a single image. By avoiding external geometric modeling and focusing on frontal view synthesis, our model optimizes visual integrity for telepresence. Specifically, PrismMirror introduces a novel cascade learning strategy that enables coarse-to-fine geometric feature learning. It first directly learns coarse geometric features, such as SMPL-X meshes and point clouds, and then refines textures through rendering supervision. To achieve real-time efficiency, we distill this unified framework into a lightweight linear attention model. Notably, PrismMirror is the first monocular human frontal view synthesis model that achieves real-time inference at 24 FPS, significantly outperforming previous methods in both visual authenticity and structural accuracy.
- Abstract(参考訳): 没入型3Dテレプレゼンスを民主化し、複雑なマルチカメラのセットアップを不要にするためには、単一の画像からのフォトリアリスティックな人間の新しいビュー合成が不可欠である。
しかし、現在のレンダリング中心の手法は、明示的な幾何学的理解よりも視覚的忠実さを優先し、顔や手のような複雑な領域と戦っているため、時間的不安定が生じる。
一方、人間中心のフレームワークは、リアルタイムのパフォーマンスを制限する幾何学的モデリングのための情報的構造的事前情報を提供する補助モデルに依存しているため、メモリボトルネックに悩まされる。
これらの課題に対処するために,1つの画像から瞬時に正面視を合成するための幾何学誘導フレームワークであるPrismMirrorを提案する。
外部幾何学的モデリングを回避し、正面視合成に焦点を合わせることにより、テレプレゼンスのための視覚的整合性を最適化する。
特にPrismMirrorは、粗い幾何学的特徴学習を可能にする新しいカスケード学習戦略を導入した。
SMPL-Xメッシュや点雲などの粗い幾何学的特徴を直接学習し、その後、レンダリングの監督を通じてテクスチャを洗練する。
実時間効率を達成するために,この統合された枠組みを軽量線形アテンションモデルに蒸留する。
とくにPrismMirrorは、24FPSでリアルタイムの推論を実現し、視覚的正当性と構造的正確性の両方において、従来の手法よりもはるかに優れた、初めての単眼のヒトの正面視合成モデルである。
関連論文リスト
- Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement [6.91111219679588]
Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。
まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
論文 参考訳(メタデータ) (2025-12-09T03:49:12Z) - CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image [37.16845070245751]
我々は,1つの隠蔽画像から複数視点の整合性を持つ3次元人体を再構成するための新しいパイプラインを提案する。
そして、3次元再構成モデルを用いて、隠蔽された入力と合成されたビューの両方に条件付き3次元ガウスの集合を予測する。
新規なビュー合成(最大3dbPSNR)と、挑戦的な条件下での幾何学的再構成の両方において、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2025-03-19T19:56:18Z) - Synthetic Prior for Few-Shot Drivable Head Avatar Inversion [61.51887011274453]
そこで本研究では,合成前駆体に基づく乾燥可能な頭部アバターの少数ショット逆転法であるSynShotを提案する。
合成データのみに基づいて訓練された機械学習モデルに着想を得て,合成頭部の大きなデータセットから先行モデルを学習する手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T19:01:05Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - TriHuman : A Real-time and Controllable Tri-plane Representation for
Detailed Human Geometry and Appearance Synthesis [76.73338151115253]
TriHumanは、人間によって調整され、変形可能で、効率的な三面体表現である。
我々は、未変形の三面体テクスチャ空間に、地球規模のサンプルを厳格にワープする。
このような三面的特徴表現が骨格運動でどのように条件付けされ、動的外観や幾何学的変化を考慮に入れられるかを示す。
論文 参考訳(メタデータ) (2023-12-08T16:40:38Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Generalizable Neural Performer: Learning Robust Radiance Fields for
Human Novel View Synthesis [52.720314035084215]
この研究は、一般のディープラーニングフレームワークを使用して、任意の人間の演奏者の自由視点画像を合成することを目的としている。
我々は、汎用的で堅牢な神経体表現を学習するシンプルな、かつ強力なフレームワーク、Generalizable Neural Performer(GNR)を提案する。
GeneBody-1.0とZJU-Mocapの実験は、最近の最先端の一般化可能な手法よりも、我々の手法の堅牢性を示している。
論文 参考訳(メタデータ) (2022-04-25T17:14:22Z) - SIDER: Single-Image Neural Optimization for Facial Geometric Detail
Recovery [54.64663713249079]
SIDERは、教師なしの方法で単一の画像から詳細な顔形状を復元する新しい光度最適化手法である。
以前の作業とは対照的に、SIDERはデータセットの事前に依存せず、複数のビュー、照明変更、地上の真実の3D形状から追加の監視を必要としない。
論文 参考訳(メタデータ) (2021-08-11T22:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。