論文の概要: Fast Registration of Photorealistic Avatars for VR Facial Animation
- arxiv url: http://arxiv.org/abs/2401.11002v2
- Date: Thu, 18 Jul 2024 22:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:06:44.452513
- Title: Fast Registration of Photorealistic Avatars for VR Facial Animation
- Title(参考訳): VR顔アニメーションのためのフォトリアリスティックアバターの高速登録
- Authors: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei,
- Abstract要約: 我々は,アバター画像とHMC画像の領域ギャップが,最も困難であることを示す。
提案するシステムでは,ドメイン内の入力を反復的に処理するモジュールと,現在の推定値に条件付きアバター誘導画像-画像間ドメイン転送モジュールの2つに分割する。
本システムでは,オフラインでのオフライン最適化の必要性を排除し,直接回帰法よりも高い品質のオンライン登録を行う。
- 参考スコア(独自算出の注目度): 14.577493209266258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a personalized photorealistic avatar, and hence the acquisition of the labels for headset-mounted camera (HMC) images need to be efficient and accurate, while wearing a VR headset. This is challenging due to oblique camera views and differences in image modality. In this work, we first show that the domain gap between the avatar and HMC images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we propose a system split into two parts: an iterative refinement module that takes in-domain inputs, and a generic avatar-guided image-to-image domain transfer module conditioned on current estimates. These two modules reinforce each other: domain transfer becomes easier when close-to-groundtruth examples are shown, and better domain-gap removal in turn improves the registration. Our system obviates the need for costly offline optimization, and produces online registration of higher quality than direct regression method. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over these baselines. To stimulate further research in this direction, we make our large-scale dataset and code publicly available.
- Abstract(参考訳): バーチャルリアリティ(VR)は、他のメディアよりも没入感のあるソーシャルインタラクションを約束する。
これの鍵となるのは、パーソナライズされた写真リアリスティックなアバターを正確にアニメーション化できることであり、したがってヘッドセット搭載カメラ(HMC)画像のラベルの取得は、VRヘッドセットを着用しながら効率的かつ正確にする必要がある。
これは、斜めカメラビューと画像のモダリティの違いのため、難しい。
本研究では,まず,アバターとHMC画像の領域ギャップが,変圧器をベースとしたアーキテクチャがドメイン一貫性データに対して高い精度を達成し,ドメインギャップが再導入されると劣化する,主な難点の1つであることを示す。
そこで本研究では,ドメイン内入力を受信する反復リファインメントモジュールと,現在の推定値に条件付アバター誘導画像・画像領域転送モジュールの2つに分割したシステムを提案する。
これらの2つのモジュールは相互に強化される: ドメイン転送は、接頭辞例が示されると容易になり、ドメインギャップの除去が改良される。
本システムでは,オフラインでのオフライン最適化の必要性を排除し,直接回帰法よりも高い品質のオンライン登録を行う。
我々は,コモディティヘッドセットを用いた広範囲な実験を通じて,アプローチの精度と効率性を検証し,これらのベースラインに対する大幅な改善を実証した。
この方向のさらなる研究を促進するために、当社の大規模データセットとコードを公開しています。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins
Objective [0.6193838300896449]
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。
提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。
その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2022-11-20T12:18:53Z) - Progressive Transformation Learning for Leveraging Virtual Images in
Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-11-03T13:04:15Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Domain Adaptation for Underwater Image Enhancement [51.71570701102219]
本稿では,ドメイン間およびドメイン内ギャップを最小限に抑えるために,新しい2相水中ドメイン適応ネットワーク(TUDA)を提案する。
第1段階では、入力画像のリアリズムを強化する翻訳部と、拡張部とを含む新しい二重配向ネットワークを設計する。
第2フェーズでは、ランクベースの水中品質評価手法が組み込まれている強化画像の評価品質に応じて、実データを簡単に分類する。
論文 参考訳(メタデータ) (2021-08-22T06:38:19Z) - Randomized Histogram Matching: A Simple Augmentation for Unsupervised
Domain Adaptation in Overhead Imagery [3.187381965457262]
ランダム化ヒストグラムマッチング(RHM)と呼ばれる高速リアルタイム非教師付きトレーニング増強手法を提案する。
RHMは、最先端の教師なしドメイン適応アプローチと比較して、一貫して類似または優れた性能が得られる。
RHMはまた、オーバーヘッド画像に広く使われている他の可分に単純なアプローチよりも大幅に優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-04-28T21:59:54Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。