論文の概要: Fast Registration of Photorealistic Avatars for VR Facial Animation
- arxiv url: http://arxiv.org/abs/2401.11002v1
- Date: Fri, 19 Jan 2024 19:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:29:52.015982
- Title: Fast Registration of Photorealistic Avatars for VR Facial Animation
- Title(参考訳): VR顔アニメーションのためのフォトリアリスティックアバターの高速登録
- Authors: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
- Abstract要約: オフライン環境では、ヘッドセット搭載カメラ(HMC)画像に対する人固有のアバターの高品質な登録が可能となる。
斜めカメラビューとモダリティの違いにより、オンライン登録も困難である。
1)ドメイン内の入力を受信する反復リファインメントモジュール,2)一般的なアバター誘導イメージ・ツー・イメージ・トランスファーモジュールの2つの部分に分割するシステム設計を開発する。
- 参考スコア(独自算出の注目度): 15.639404610678543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.
- Abstract(参考訳): バーチャルリアリティ(VR)は、他のメディアよりも没入感のあるソーシャルインタラクションを約束する。
これの鍵となるのは、VRヘッドセットを着用している間、写実的なアバターを正確にアニメーションできることだ。
オフライン環境では、ヘッドセット搭載カメラ(hmc)画像に対する個人固有のアバターの高品質な登録が可能であるが、汎用リアルタイムモデルの性能は著しく低下している。
斜めカメラビューとモダリティの違いにより、オンライン登録も困難である。
本研究では,まず,アバターとヘッドセットカメラ画像の領域ギャップが,トランスフォーマーベースのアーキテクチャがドメイン一貫性データに対して高い精度で達成されるが,ドメインギャップが再導入されると劣化することを示す。
この知見に基づいて,問題を2つの部分に分割するシステム設計を考案する。
1)ドメイン内の入力を受信する反復リファインメントモジュール、及び
2) 表情と頭部ポーズの現在の推定を条件とした一般的なアバター誘導画像移動モジュール。
これらの2つのモジュールは互いに強化し合っており、近距離の例を示すと画像スタイル転送が容易になり、ドメインギャップの除去が登録に役立ちます。
提案システムは高品質な結果を効率よく生成し,パーソナライズされたラベルを生成するために,コストのかかるオフライン登録の必要性を回避する。
我々は,商品ヘッドセットを用いた広範囲な実験を通じて,アプローチの精度と効率を検証し,直接回帰法やオフライン登録法よりも大幅に改善した。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective [0.6193838300896449]
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2022-11-20T12:18:53Z) - Progressive Transformation Learning for Leveraging Virtual Images in
Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-11-03T13:04:15Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Domain Adaptation for Underwater Image Enhancement [51.71570701102219]
本稿では,ドメイン間およびドメイン内ギャップを最小限に抑えるために,新しい2相水中ドメイン適応ネットワーク(TUDA)を提案する。
第1段階では、入力画像のリアリズムを強化する翻訳部と、拡張部とを含む新しい二重配向ネットワークを設計する。
第2フェーズでは、ランクベースの水中品質評価手法が組み込まれている強化画像の評価品質に応じて、実データを簡単に分類する。
論文 参考訳(メタデータ) (2021-08-22T06:38:19Z) - Randomized Histogram Matching: A Simple Augmentation for Unsupervised
Domain Adaptation in Overhead Imagery [3.187381965457262]
ランダム化ヒストグラムマッチング(RHM)と呼ばれる高速リアルタイム非教師付きトレーニング増強手法を提案する。
RHMは、最先端の教師なしドメイン適応アプローチと比較して、一貫して類似または優れた性能が得られる。
RHMはまた、オーバーヘッド画像に広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-04-28T21:59:54Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。