Fugu-MT 論文翻訳(概要): IMUSIC: IMU-based Facial Expression Capture

論文の概要: IMUSIC: IMU-based Facial Expression Capture

arxiv url: http://arxiv.org/abs/2402.03944v1
Date: Sat, 3 Feb 2024 14:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 15:09:41.445609
Title: IMUSIC: IMU-based Facial Expression Capture
Title（参考訳）: IMUSIC:IMUベースの表情キャプチャ
Authors: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
Abstract要約: 慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。このギャップを埋めるためにIMUSICを提案する。 IMUの構成と技術コンポーネントの両方について広範な実験を行い、IMUSICのアプローチを検証する。
参考スコア（独自算出の注目度）: 41.014369183250274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
Abstract（参考訳）: 顔の動きのキャプチャと分析では、支配的なソリューションは一般的に、プライバシーを保護できず、閉塞に弱い視覚的手がかりに基づいている。慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。本稿では,このギャップを埋めるためにIMUSICを提案する。これは純粋IMU信号を用いた表情キャプチャの新しい経路であり,従来の視覚的ソリューションとはかなり離れている。我々はまず、解剖学駆動型IMU配置スキームを伴って、顔の撮影に適したマイクロIMUを設計する。そして、多様な表情とパフォーマンスのために、リッチなIMU/視覚信号を提供する新しいIMU-ARKitデータセットをコントリビュートする。このようなユニークなマルチモダリティは、IMUベースの顔行動分析のような将来の方向性に大きな可能性をもたらす。さらに、IMU-ARKitを用いて、純IMU信号から顔のブレンドシェープパラメータを正確に予測する強力なベースライン手法を提案する。具体的には、この新たなトラッキングタスクのための2段階のトレーニング戦略を備えたTransformer拡散モデルを調整する。 IMUSICフレームワークは,視覚的手法が乱れ,同時にユーザのプライバシを保護するシナリオにおいて,正確な顔認証を可能にする。 IMUSICアプローチの有効性を検証するため,IMU構成と技術コンポーネントについて広範な実験を行った。特に、IMUSICは、プライバシー保護の顔キャプチャー、隠蔽に対するハイブリッドキャプチャー、視覚的手がかりによってしばしば見えない微小な顔の動きの検出など、様々な可能性と斬新な応用を可能にしている。私たちは、コミュニティにおける顔認識と分析の可能性を高めるために、データセットと実装をリリースします。

関連論文リスト

Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning [3.177649348456073]
ウェアラブル慣性センサーに基づくヒューマンアクティビティ認識(HAR)は,遠隔健康モニタリングにおいて重要な役割を担っている。我々は,大規模未ラベルIMUビデオデータから表現を学習するための,クロスモーダルな自己教師型事前学習手法を提案する。以上の結果から,提案手法は現状のIMU-ビデオ事前訓練手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-07-17T18:47:46Z)
Prism: Mining Task-aware Domains in Non-i.i.d. IMU Data for Flexible User Perception [20.61555898129175]
モバイルデバイス上で高いFUP精度を得ることができるPrismと呼ばれる新しいスキームを提案する。 Prismの中核は、IMUデータセットに埋め込まれたタスク認識ドメインを発見し、特定されたドメインごとにドメイン認識モデルをトレーニングすることである。結果は、Prismが低レイテンシで最高のFUPパフォーマンスを達成できることを示しています。
論文参考訳（メタデータ） (2025-01-03T02:07:42Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文参考訳（メタデータ） (2024-07-09T07:53:16Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文参考訳（メタデータ） (2023-07-21T07:56:32Z)
Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文参考訳（メタデータ） (2022-11-28T11:29:56Z)
IMU2CLIP: Multimodal Contrastive Learning for IMU Motion Sensors from Egocentric Videos and Text [25.471322742568884]
Inertial Measurement Unit(IMU)モーションセンサをビデオやテキストに合わせるための,新しい事前学習手法であるIMU2CLIPを提案する。提案手法により、IMU2CLIPは人間の動きを対応するテキスト記述やビデオに変換することができる。
論文参考訳（メタデータ） (2022-10-26T00:22:41Z)
IMG2IMU: Translating Knowledge from Large-Scale Images to IMU Sensing Applications [6.865654843241631]
IMG2IMUは、大規模画像から多様なIMUセンシングタスクに事前訓練された表現を適応させる。我々は,センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。 IMG2IMUは、センサーデータに基づいて事前訓練されたベースラインを平均9.6%p F1スコアで上回る。
論文参考訳（メタデータ） (2022-09-02T11:00:23Z)
FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation [12.821740951249552]
パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。 IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。 3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
論文参考訳（メタデータ） (2022-08-25T09:35:27Z)
Transformer Inertial Poser: Attention-based Real-time Human Motion Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文参考訳（メタデータ） (2022-03-29T16:24:52Z)
A Computer Vision System to Help Prevent the Transmission of COVID-19 [79.62140902232628]
新型コロナウイルスのパンデミックは世界中の日常生活のあらゆる領域に影響を与える。保健機関は、ソーシャルディスタンス、フェイスマスクを着用し、触れる顔を避けることをアドバイスします。我々は、新型コロナウイルスの感染を防ぐためのディープラーニングベースのコンピュータビジョンシステムを開発した。
論文参考訳（メタデータ） (2021-03-16T00:00:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。