論文の概要: EgoAnimate: Generating Human Animations from Egocentric top-down Views
- arxiv url: http://arxiv.org/abs/2507.09230v1
- Date: Sat, 12 Jul 2025 09:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.768322
- Title: EgoAnimate: Generating Human Animations from Egocentric top-down Views
- Title(参考訳): エゴ中心のトップダウンビューから人間アニメーションを生成するEgoAnimate
- Authors: G. Kutay Türkoglu, Julian Tanke, Iheb Belgacem, Lev Markhasin,
- Abstract要約: ControlNetとStable Diffusionのバックボーンを用いて、トップダウン画像からリアルなフロントビューを生成するパイプラインを導入する。
これにより、最小限の入力からアバターの動きを生成することができ、よりアクセスしやすく一般化可能なテレプレゼンスシステムへの道を開くことができる。
- 参考スコア(独自算出の注目度): 3.035601871864059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An ideal digital telepresence experience requires accurate replication of a person's body, clothing, and movements. To capture and transfer these movements into virtual reality, the egocentric (first-person) perspective can be adopted, which enables the use of a portable and cost-effective device without front-view cameras. However, this viewpoint introduces challenges such as occlusions and distorted body proportions. There are few works reconstructing human appearance from egocentric views, and none use a generative prior-based approach. Some methods create avatars from a single egocentric image during inference, but still rely on multi-view datasets during training. To our knowledge, this is the first study using a generative backbone to reconstruct animatable avatars from egocentric inputs. Based on Stable Diffusion, our method reduces training burden and improves generalizability. Inspired by methods such as SiTH and MagicMan, which perform 360-degree reconstruction from a frontal image, we introduce a pipeline that generates realistic frontal views from occluded top-down images using ControlNet and a Stable Diffusion backbone. Our goal is to convert a single top-down egocentric image into a realistic frontal representation and feed it into an image-to-motion model. This enables generation of avatar motions from minimal input, paving the way for more accessible and generalizable telepresence systems.
- Abstract(参考訳): 理想的なデジタルテレプレゼンス体験には、人の身体、衣服、動きを正確に再現する必要がある。
これらの動きをバーチャルリアリティーにキャプチャし、転送するために、エゴセントリック(ファーストパーソン)な視点を採用することができ、フロントビューカメラを使わずにポータブルで費用対効果の高いデバイスを使用できる。
しかし、この視点は、閉塞や歪んだ体比といった課題を提起している。
自我中心的な視点から人間の外見を再構築する作品はほとんどなく、創造的な先進的なアプローチを使うものはない。
いくつかのメソッドは、推論中に単一のエゴセントリックなイメージからアバターを生成するが、それでもトレーニング中にマルチビューデータセットに依存している。
我々の知る限り、この研究は自我中心の入力からアニマタブルなアバターを再構築するための生成的バックボーンを用いた最初の研究である。
安定拡散に基づいて,本手法は訓練負担を軽減し,一般化性を向上させる。
正面画像から360度再構成を行うSiTHやMagicManなどの手法に着想を得て,コントロールネットと安定拡散バックボーンを用いたトップダウン画像からリアルな正面ビューを生成するパイプラインを導入する。
私たちのゴールは、1つのトップダウンのエゴセントリックなイメージを現実的な正面表現に変換し、それをイメージ・ツー・モーションモデルにフィードすることです。
これにより、最小限の入力からアバターの動きを生成することができ、よりアクセスしやすく一般化可能なテレプレゼンスシステムへの道を開くことができる。
関連論文リスト
- Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior [31.780579293685797]
Vid2Avatar-Proは、モノクラーインザミルドビデオから、フォトリアリスティックでアニマタブルな3Dアバターを作成する方法である。
論文 参考訳(メタデータ) (2025-03-03T14:45:35Z) - Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars [52.439807298140394]
少数の入力画像から高品質でアニマタブルな3Dヘッドアバターを復元するAvat3rを提案する。
大規模なリコンストラクションモデルをアニマタブルにし、大規模なマルチビュービデオデータセットから3次元以上の人間の頭部を強力に学習する。
トレーニング中に異なる表現の入力イメージをモデルに供給することでロバスト性を高め,不整合入力からの3次元頭部アバターの再構成を可能にする。
論文 参考訳(メタデータ) (2025-02-27T16:00:11Z) - EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。
提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文 参考訳(メタデータ) (2024-09-22T22:50:27Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - EgoRenderer: Rendering Human Avatars from Egocentric Camera Images [87.96474006263692]
EgoRendererは、ウェアラブルでエゴ中心の魚眼カメラで捉えた人の全身神経アバターをレンダリングするシステムである。
このようなエゴセントリックなイメージからフルボディのアバターをレンダリングすることは、トップダウンのビューと大きな歪みのために、ユニークな課題を生んでいる。
レンダリング処理をテクスチャ合成,ポーズ構築,ニューラルイメージ変換など,いくつかのステップに分解することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2021-11-24T18:33:02Z) - Pipeline for 3D reconstruction of the human body from AR/VR headset
mounted egocentric cameras [0.0]
エゴセントリックな視点から全身の3次元再構築のための新しいパイプラインを提案する。
まず、条件付きGANを用いて、エゴセントリックな視点をフルボディの第三者の視点に変換する。
生成されたメッシュは、かなり現実的なボディパーセンテージを持ち、さらなる応用を可能にする。
論文 参考訳(メタデータ) (2021-11-09T20:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。