論文の概要: AHOY! Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2603.17975v1
- Date: Wed, 18 Mar 2026 17:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.864773
- Title: AHOY! Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors
- Title(参考訳): ガウス・スプティングとビデオ拡散の先駆者でYouTubeビデオから除外されたアニメーション人間たち
- Authors: Aymen Mir, Riza Alp Guler, Xiangjun Tang, Peter Wonka, Gerard Pons-Moll,
- Abstract要約: AHOYは,眼球内モノクローナルビデオから完全でアニマタブルな3Dガウスアバターを再構成する手法である。
我々は,これまで観測されていなかった身体領域の密集的な監視を実現するために,個人識別拡散モデルを用いた幻覚・超越パイプラインを開発した。
得られたアバターは、新しいポーズでアニメーションできるほど頑丈で、3DGSのシーンに合成され、携帯電話のビデオで撮影される。
- 参考スコア(独自算出の注目度): 58.22950708041041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AHOY, a method for reconstructing complete, animatable 3D Gaussian avatars from in-the-wild monocular video despite heavy occlusion. Existing methods assume unoccluded input-a fully visible subject, often in a canonical pose-excluding the vast majority of real-world footage where people are routinely occluded by furniture, objects, or other people. Reconstructing from such footage poses fundamental challenges: large body regions may never be observed, and multi-view supervision per pose is unavailable. We address these challenges with four contributions: (i) a hallucination-as-supervision pipeline that uses identity-finetuned diffusion models to generate dense supervision for previously unobserved body regions; (ii) a two-stage canonical-to-pose-dependent architecture that bootstraps from sparse observations to full pose-dependent Gaussian maps; (iii) a map-pose/LBS-pose decoupling that absorbs multi-view inconsistencies from the generated data; (iv) a head/body split supervision strategy that preserves facial identity. We evaluate on YouTube videos and on multi-view capture data with significant occlusion and demonstrate state-of-the-art reconstruction quality. We also demonstrate that the resulting avatars are robust enough to be animated with novel poses and composited into 3DGS scenes captured using cell-phone video. Our project page is available at https://miraymen.github.io/ahoy/
- Abstract(参考訳): AHOYは,眼内モノクローナルビデオから完全でアニマタブルな3Dガウスアバターを再構成する手法である。
既存の手法では、しばしば標準的なポーズで、家具、物、または他の人々によって日常的に隠されている現実世界のほとんどの映像を除外する。
大規模な身体領域は決して観察されず、ポーズごとの多視点監視は不可能である。
これらの課題に4つのコントリビューションで対処します。
一 自己形成拡散モデルを用いて、これまで観測されていなかった身体領域の密接な監督を生成する幻覚・超越パイプライン
(ii)スパース観測からフルポーズ依存ガウス写像へブートストラップする2段階の標準-目的-依存アーキテクチャ
三 作成したデータから多視点の不整合を吸収する地図用/LBS用疎結合
(四)顔の同一性を維持する頭/体分割監視戦略。
我々は,YouTubeビデオやマルチビューキャプチャーデータに対して,かなりの閉塞性を示し,最先端の再現性を示す。
また、得られたアバターは、新しいポーズでアニメーションできるほど頑丈で、携帯電話で撮影した3DGSシーンに合成されていることを実証した。
私たちのプロジェクトページはhttps://miraymen.github.io/ahoy/で公開されています。
関連論文リスト
- Human Video Generation from a Single Image with 3D Pose and View Control [62.676151243249556]
HVG(Human Video Generation in 4D)は、1つの画像から高画質のマルチビュー、時間的コヒーレントな人間の映像を生成できる潜時ビデオ拡散モデルである。
1)新しい2次元骨地図を通して3次元関節の解剖学的関係を捉え、3次元情報を導入して自己閉塞を解消するArticulated Pose Modulation、(ii)参照画像とフレーム間安定性のためのポーズシーケンス間の多視点一貫性と整合性を保証するView and Temporal Alignment、(iii)
論文 参考訳(メタデータ) (2026-02-24T18:42:20Z) - LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models [52.656349227001925]
モノクロビデオが与えられた場合、ビデオの再レンダリングの目的は、新しいカメラの軌跡からシーンのビューを生成することである。
既存の方法は2つの異なる課題に直面している。
大規模な4次元再構成モデルの潜在空間に埋め込まれた暗黙的幾何学的知識を用いて,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2026-01-21T05:46:03Z) - UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting [54.883935964137706]
UAV4Dは,UAVが捉えたダイナミックな現実世界のシーンに対して,フォトリアリスティックなレンダリングを可能にするフレームワークである。
我々は3次元基礎モデルと人間のメッシュ再構築モデルを組み合わせて、シーン背景と人間の両方を再構築する。
以上の結果から,新しい視点合成法に対するアプローチの利点が示され,1.5dBPSNRの改善と視覚的シャープネスの向上が達成された。
論文 参考訳(メタデータ) (2025-06-05T13:21:09Z) - Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior [31.780579293685797]
Vid2Avatar-Proは、モノクラーインザミルドビデオから、フォトリアリスティックでアニマタブルな3Dアバターを作成する方法である。
論文 参考訳(メタデータ) (2025-03-03T14:45:35Z) - Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。
多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。
本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文 参考訳(メタデータ) (2024-12-20T18:58:24Z) - GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion [5.49003371165534]
記録からの光リアルな3D頭部アバター再構成は、観測が限られているため困難である。
複数視点の頭部拡散モデルを導入し,その先行特性を利用して,欠落した領域を埋め,視界の整合性を確保する。
提案手法をNeRSembleデータセット上で評価し,新しいビュー合成における従来の最先端手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:22Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。