論文の概要: Generator-Refiner-Examiner: A Tri-Module Data Augmentation Framework for 3D Human Avatar Learning from Monocular Videos
- arxiv url: http://arxiv.org/abs/2605.23555v1
- Date: Fri, 22 May 2026 12:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.339358
- Title: Generator-Refiner-Examiner: A Tri-Module Data Augmentation Framework for 3D Human Avatar Learning from Monocular Videos
- Title(参考訳): Generator-Refiner-Examiner:モノクロ映像からの3次元アバター学習のための3モードデータ拡張フレームワーク
- Authors: Gangjian Zhang, Jian Shu, Sicheng Yu, Wenhao Shen, Yu Feng, Hao Wang,
- Abstract要約: TrioManは、拡張された3Dアバター学習のためのシステマティックなトリモジュールフレームワークである。
ジェネレータは、ポーズとカメラにガウスの摂動を付与することで、さまざまな目に見えないサンプルを生成する。
Refinerはテクスチャと幾何学的手がかりによってガイドされた一段階の拡散によって生成データの品質を向上させる。
- 参考スコア(独自算出の注目度): 14.261584917665118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of reconstructing photorealistic and animatable 3D human avatars from monocular videos. While existing methods rely on combining per-subject optimization with generic human priors, they often fail to capture fine-grained details when training frames are limited. To mitigate this data scarcity, we propose TrioMan, a systematic tri-module framework for augmented 3D avatar learning. Our approach comprises three synergistic components. The Generator creates diverse unseen samples by imposing Gaussian perturbations on pose and camera. The Refiner improves the quality of generated data through one-step diffusion guided by texture and geometry cues. The Examiner selects subject-consistent samples using a dual-branch attention-based similarity evaluation. Experiments on the X-Humans and NeuMan benchmarks show that TrioMan outperforms state-of-the-art methods.
- Abstract(参考訳): 本稿では,モノクラービデオから,光現実性とアニメーション可能な3次元アバターを再構築する課題について述べる。
既存の手法では、オブジェクトごとの最適化と一般的な人間の事前設定の組み合わせに頼っているが、トレーニングフレームが制限されている場合、細かな詳細をキャプチャできないことが多い。
このデータ不足を軽減するために,拡張型3次元アバター学習のための3モジュールフレームワークであるTrioManを提案する。
提案手法は3つの相乗的成分からなる。
ジェネレータは、ポーズとカメラにガウスの摂動を付与することで、さまざまな目に見えないサンプルを生成する。
Refinerはテクスチャと幾何学的手がかりによってガイドされた1ステップの拡散によって生成データの品質を向上させる。
Examinerは、デュアルブランチアテンションに基づく類似性評価を用いて、主観的なサンプルを選択する。
X-HumansとNeuManベンチマークの実験は、TrioManが最先端の手法より優れていることを示している。
関連論文リスト
- MoGA: 3D Generative Avatar Prior for Monocular Gaussian Avatar Reconstruction [65.5412504339528]
MoGAは高忠実度3Dガウスアバターを単一視点画像から再構成する新しい手法である。
提案手法は最先端の手法を超越し,実世界のシナリオを一般化する。
論文 参考訳(メタデータ) (2025-07-31T14:36:24Z) - PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images [23.745241278910946]
PF-LHMは、1つまたは複数のカジュアルにキャプチャされたポーズレス画像から、高品質な3Dアバターを秒間に生成する大規模な人間再構成モデルである。
カメラや人間のポーズアノテーションを必要とせず、高忠実でアニマタブルな3次元アバターを実現する。
論文 参考訳(メタデータ) (2025-06-16T17:59:56Z) - SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation [0.0]
1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
論文 参考訳(メタデータ) (2025-05-08T17:59:58Z) - Bundle Adjusted Gaussian Avatars Deblurring [31.718130377229482]
本研究では,人間の運動に起因するぼかし形成の3次元的物理指向モデルと,運動誘発ぼかし画像に見られる曖昧さを明らかにするための3次元人体運動モデルを提案する。
我々は,360度同期ハイブリッド露光カメラシステムによって取得された実撮データセットとともに,既存のマルチビューキャプチャから合成されたデータセットを用いて,このタスクのベンチマークを確立した。
論文 参考訳(メタデータ) (2024-11-24T10:03:24Z) - Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。
我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。
提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-10T14:29:00Z) - iHuman: Instant Animatable Digital Humans From Monocular Videos [16.98924995658091]
モノクロビデオからアニマタブルな3Dデジタル人間を作るための,迅速かつシンプルで効果的な方法を提案する。
この研究は、人間の身体の正確な3Dメッシュ型モデリングの必要性を達成し、説明します。
我々の手法は(訓練時間の観点から)最も近い競合相手よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-07-15T18:51:51Z) - MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic
3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。
我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文 参考訳(メタデータ) (2023-12-15T11:56:26Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。