論文の概要: ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation
- arxiv url: http://arxiv.org/abs/2512.07720v1
- Date: Mon, 08 Dec 2025 17:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.972126
- Title: ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation
- Title(参考訳): ViSA: リアルタイムアッパーボディアバター作成のための3D対応ビデオシェーディング
- Authors: Fan Yang, Heyuan Li, Peihao Li, Weihao Yuan, Lingteng Qiu, Chaoyue Song, Cheng Chen, Yisheng He, Shifeng Zhang, Xiaoguang Han, Steven Hoi, Guosheng Lin,
- Abstract要約: 現在の3Dアバター生成法は、ぼやけたテクスチャや固い不自然な動きといったアーティファクトに悩まされることが多い。
両パラダイムの強みを組み合わせた新しいアプローチを提案する。
ビデオモデルの生成能力と3次元再構成の幾何学的安定性を結合することにより,高忠実度デジタルアバターを製作する。
- 参考スコア(独自算出の注目度): 62.86900540547787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity upper-body 3D avatars from one-shot input image remains a significant challenge. Current 3D avatar generation methods, which rely on large reconstruction models, are fast and capable of producing stable body structures, but they often suffer from artifacts such as blurry textures and stiff, unnatural motion. In contrast, generative video models show promising performance by synthesizing photorealistic and dynamic results, but they frequently struggle with unstable behavior, including body structural errors and identity drift. To address these limitations, we propose a novel approach that combines the strengths of both paradigms. Our framework employs a 3D reconstruction model to provide robust structural and appearance priors, which in turn guides a real-time autoregressive video diffusion model for rendering. This process enables the model to synthesize high-frequency, photorealistic details and fluid dynamics in real time, effectively reducing texture blur and motion stiffness while preventing the structural inconsistencies common in video generation methods. By uniting the geometric stability of 3D reconstruction with the generative capabilities of video models, our method produces high-fidelity digital avatars with realistic appearance and dynamic, temporally coherent motion. Experiments demonstrate that our approach significantly reduces artifacts and achieves substantial improvements in visual quality over leading methods, providing a robust and efficient solution for real-time applications such as gaming and virtual reality. Project page: https://lhyfst.github.io/visa
- Abstract(参考訳): 高忠実度上半身3Dアバターをワンショット入力画像から生成することは大きな課題である。
現在の3Dアバター生成法は、大規模な再構築モデルに依存しており、高速で安定したボディ構造を生成できるが、しばしばぼやけたテクスチャや固い不自然な動きなどの人工物に悩まされる。
対照的に、生成ビデオモデルは、フォトリアリスティックおよびダイナミックな結果を合成することによって有望な性能を示すが、身体構造エラーやアイデンティティドリフトなど不安定な振る舞いにしばしば苦労する。
これらの制約に対処するため,両パラダイムの強みを組み合わせた新しいアプローチを提案する。
本フレームワークでは3次元再構成モデルを用いて,レンダリングのためのリアルタイム自己回帰映像拡散モデルを導出する。
このプロセスにより、高頻度で光リアリスティックな詳細や流体力学をリアルタイムで合成することができ、ビデオ生成法に共通する構造上の不整合を防止しつつ、テクスチャのぼかしや動きの硬さを効果的に低減することができる。
映像モデルの生成能力と3次元再構成の幾何学的安定性を結合することにより,現実的な外観と動的,時間的コヒーレントな動きを持つ高忠実度デジタルアバターを製作する。
実験により,本手法はアーティファクトを大幅に削減し,先行する手法よりも視覚的品質を大幅に向上し,ゲームやバーチャルリアリティといったリアルタイムアプリケーションに対して堅牢で効率的なソリューションを提供することを示した。
プロジェクトページ: https://lhyfst.github.io/visa
関連論文リスト
- MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics [27.63650397876897]
MPMAvatarは、マルチビュービデオから3Dヒューマンアバターを作成するためのフレームワークである。
高精度でロバストな動的モデリングのために、我々はMaterial Point Methodベースのシミュレータを使う。
論文 参考訳(メタデータ) (2025-10-02T02:51:45Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos [8.444819892052958]
2次元拡散モデルは、フォトリアリスティックな編集を作成することを約束している。
従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
これは、ビデオオブジェクト挿入のための3次元レンダリングと2次元拡散を相乗化するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-07-27T15:49:07Z) - TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling [52.87836237427514]
フォトリアルアバターは、テレプレゼンス、拡張現実、エンターテイメントにおける新興アプリケーションにおいて重要な要素であると見なされている。
本稿では,最先端の3Dヘッドアバターモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T22:10:27Z) - ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。
ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。
以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T17:59:56Z) - Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos [64.10307207290039]
本研究では,モーションブルモノクロビデオ入力から高忠実でアニマタブルな3次元アバターをモデリングするための新しいフレームワークを提案する。
被曝時の人体運動軌跡を明示的にモデル化することにより、鋭く高品質な人体アバターを再構築するために、軌跡と3Dガウスアンを共同で最適化する。
論文 参考訳(メタデータ) (2025-01-23T02:31:57Z) - DeTurb: Atmospheric Turbulence Mitigation with Deformable 3D Convolutions and 3D Swin Transformers [2.9695823613761316]
長距離撮影における大気の乱流は、空間次元と時間次元のランダムな変動により、撮影シーンの品質と忠実度を著しく低下させる。
本稿では,幾何復元と拡張モジュールを組み合わせた新しいフレームワークを提案する。
提案手法は, 適切な速度とモデルサイズで, 合成および実大気乱流効果の両面において, 技術の現状よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-30T14:31:33Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。