論文の概要: Real-time 3D Facial Tracking via Cascaded Compositional Learning
- arxiv url: http://arxiv.org/abs/2009.00935v1
- Date: Wed, 2 Sep 2020 10:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:19:34.174449
- Title: Real-time 3D Facial Tracking via Cascaded Compositional Learning
- Title(参考訳): 合成学習によるリアルタイム3次元顔追跡
- Authors: Jianwen Lou, Xiaoxu Cai, Junyu Dong and Hui Yu
- Abstract要約: モノクロRGBカメラからリアルタイムな3次元顔追跡のための多モード顔の動きの回帰を解くために,グローバルに最適化されたモジュールアップファーン(GoMBF)のカスケードを学習する。
GoMBFは、複数の回帰モデルの深い構成であり、各モデルは、当初同じモードの偏運動パラメータを予測するために訓練された強化されたファーンである。
- 参考スコア(独自算出の注目度): 30.660564667452118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to learn a cascade of globally-optimized modular boosted ferns
(GoMBF) to solve multi-modal facial motion regression for real-time 3D facial
tracking from a monocular RGB camera. GoMBF is a deep composition of multiple
regression models with each is a boosted ferns initially trained to predict
partial motion parameters of the same modality, and then concatenated together
via a global optimization step to form a singular strong boosted ferns that can
effectively handle the whole regression target. It can explicitly cope with the
modality variety in output variables, while manifesting increased fitting power
and a faster learning speed comparing against the conventional boosted ferns.
By further cascading a sequence of GoMBFs (GoMBF-Cascade) to regress facial
motion parameters, we achieve competitive tracking performance on a variety of
in-the-wild videos comparing to the state-of-the-art methods, which require
much more training data or have higher computational complexity. It provides a
robust and highly elegant solution to real-time 3D facial tracking using a
small set of training data and hence makes it more practical in real-world
applications.
- Abstract(参考訳): モノクラーRGBカメラからリアルタイム3次元顔追跡のための多モード顔の動き回帰を解くために,グローバルに最適化されたモジュールアップファーン (GoMBF) のカスケードを学習することを提案する。
gombfは複数の回帰モデルの深い構成であり、それぞれは最初同じモダリティの偏動パラメータを予測するために訓練され、その後グローバル最適化ステップを介して結合され、回帰対象全体を効果的に処理できる特異な強ブーストfernを形成する。
出力変数のモダリティ変化に明示的に対応でき、従来の強化されたファーンと比較すると、適合能力の増大と学習速度の高速化が示される。
さらに、GoMBF(GoMBF-Cascade)のシーケンスをカスケードして顔の動きパラメータを抑えることにより、より多くのトレーニングデータを必要とする、あるいはより複雑な計算処理を必要とする最先端の手法と比較して、様々な動画の競合追跡性能を実現する。
これは、少量のトレーニングデータを使用してリアルタイムの3D顔追跡に堅牢でエレガントなソリューションを提供するため、現実世界のアプリケーションではより実用的になる。
関連論文リスト
- MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation [18.261678529996104]
本稿では,低レベル認識モジュールの出力をキネマティックおよびシーンモデリングの先駆体と柔軟に統合するフレームワークを提案する。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-08-08T10:55:55Z) - GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。
最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文 参考訳(メタデータ) (2024-03-15T09:47:35Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Asynchronous Hybrid Reinforcement Learning for Latency and Reliability
Optimization in the Metaverse over Wireless Communications [8.513938423514636]
現実世界のシーンのリアルタイムデジタルツインニングが増加している。
送信シーン次元(3次元とは対照的に2次元)の差は、アップリンク(UL)とダウンリンク(DL)の非対称データサイズにつながる
我々は、新しいマルチエージェント強化学習アルゴリズム、すなわち非同期アクターハイブリッド批判(AAHC)を設計する。
論文 参考訳(メタデータ) (2022-12-30T14:40:00Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。