論文の概要: IMUSIC: IMU-based Facial Expression Capture
- arxiv url: http://arxiv.org/abs/2402.03944v1
- Date: Sat, 3 Feb 2024 14:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:09:41.445609
- Title: IMUSIC: IMU-based Facial Expression Capture
- Title(参考訳): IMUSIC:IMUベースの表情キャプチャ
- Authors: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin,
Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
- Abstract要約: 慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。
このギャップを埋めるためにIMUSICを提案する。
IMUの構成と技術コンポーネントの両方について広範な実験を行い、IMUSICのアプローチを検証する。
- 参考スコア(独自算出の注目度): 41.014369183250274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.
- Abstract(参考訳): 顔の動きのキャプチャと分析では、支配的なソリューションは一般的に、プライバシーを保護できず、閉塞に弱い視覚的手がかりに基づいている。
慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。
本稿では,このギャップを埋めるためにIMUSICを提案する。これは純粋IMU信号を用いた表情キャプチャの新しい経路であり,従来の視覚的ソリューションとはかなり離れている。
我々はまず、解剖学駆動型IMU配置スキームを伴って、顔の撮影に適したマイクロIMUを設計する。
そして、多様な表情とパフォーマンスのために、リッチなIMU/視覚信号を提供する新しいIMU-ARKitデータセットをコントリビュートする。
このようなユニークなマルチモダリティは、IMUベースの顔行動分析のような将来の方向性に大きな可能性をもたらす。
さらに、IMU-ARKitを用いて、純IMU信号から顔のブレンドシェープパラメータを正確に予測する強力なベースライン手法を提案する。
具体的には、この新たなトラッキングタスクのための2段階のトレーニング戦略を備えたTransformer拡散モデルを調整する。
IMUSICフレームワークは,視覚的手法が乱れ,同時にユーザのプライバシを保護するシナリオにおいて,正確な顔認証を可能にする。
IMUSICアプローチの有効性を検証するため,IMU構成と技術コンポーネントについて広範な実験を行った。
特に、IMUSICは、プライバシー保護の顔キャプチャー、隠蔽に対するハイブリッドキャプチャー、視覚的手がかりによってしばしば見えない微小な顔の動きの検出など、様々な可能性と斬新な応用を可能にしている。
私たちは、コミュニティにおける顔認識と分析の可能性を高めるために、データセットと実装をリリースします。
関連論文リスト
- SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Fusing Monocular Images and Sparse IMU Signals for Real-time Human
Motion Capture [8.125716139367142]
本研究では,モノクロ画像とスパースIMUを融合してリアルタイムな人体モーションキャプチャを実現する手法を提案する。
本手法は, モーションキャプチャにおいて, 目標の異なるIMU信号を完全に探索する2つの座標戦略を含む。
我々の手法は最先端のビジョン, IMU, およびグローバルな向きと局所的なポーズ推定の併用方法よりも優れていた。
論文 参考訳(メタデータ) (2023-09-01T07:52:08Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z) - IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from
Egocentric Videos and Text [25.471322742568884]
Inertial Measurement Unit(IMU)モーションセンサをビデオやテキストに合わせるための,新しい事前学習手法であるIMU2CLIPを提案する。
提案手法により、IMU2CLIPは人間の動きを対応するテキスト記述やビデオに変換することができる。
論文 参考訳(メタデータ) (2022-10-26T00:22:41Z) - IMG2IMU: Translating Knowledge from Large-Scale Images to IMU Sensing
Applications [6.865654843241631]
IMG2IMUは、大規模画像から多様なIMUセンシングタスクに事前訓練された表現を適応させる。
我々は,センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。
IMG2IMUは、センサーデータに基づいて事前訓練されたベースラインを平均9.6%p F1スコアで上回る。
論文 参考訳(メタデータ) (2022-09-02T11:00:23Z) - FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric
Human Pose Estimation [12.821740951249552]
パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。
IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。
3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
論文 参考訳(メタデータ) (2022-08-25T09:35:27Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。