論文の概要: Detection of (Hidden) Emotions from Videos using Muscles Movements and
Face Manifold Embedding
- arxiv url: http://arxiv.org/abs/2211.00233v1
- Date: Tue, 1 Nov 2022 02:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:49:07.039840
- Title: Detection of (Hidden) Emotions from Videos using Muscles Movements and
Face Manifold Embedding
- Title(参考訳): 筋運動と顔多様体埋め込みを用いたビデオからの(隠れ)感情の検出
- Authors: Juni Kim, Zhikang Dong, Eric Guan, Judah Rosenthal, Shi Fu, Miriam
Rafailovich, Pawel Polak
- Abstract要約: 人間の顔の映像から感情を検出するための,非侵襲的で,手軽にスケールできる新しい方法を提案する。
提案手法は,映像中の顔の位置の正確な検出と局所的な顔多様体の埋め込みを組み合わせたものである。
次に,Digital Image Speckle correlation (DISC) と光フローアルゴリズムを用いて,顔の微小な動きのパターンを計算する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a new non-invasive, easy-to-scale for large amounts of subjects
and a remotely accessible method for (hidden) emotion detection from videos of
human faces. Our approach combines face manifold detection for accurate
location of the face in the video with local face manifold embedding to create
a common domain for the measurements of muscle micro-movements that is
invariant to the movement of the subject in the video. In the next step, we
employ the Digital Image Speckle Correlation (DISC) and the optical flow
algorithm to compute the pattern of micro-movements in the face. The
corresponding vector field is mapped back to the original space and
superimposed on the original frames of the videos. Hence, the resulting videos
include additional information about the direction of the movement of the
muscles in the face. We take the publicly available CK++ dataset of visible
emotions and add to it videos of the same format but with hidden emotions. We
process all the videos using our micro-movement detection and use the results
to train a state-of-the-art network for emotions classification from videos --
Frame Attention Network (FAN). Although the original FAN model achieves very
high out-of-sample performance on the original CK++ videos, it does not perform
so well on hidden emotions videos. The performance improves significantly when
the model is trained and tested on videos with the vector fields of muscle
movements. Intuitively, the corresponding arrows serve as edges in the image
that are easily captured by the convolutions filters in the FAN network.
- Abstract(参考訳): 大量の被験者に対して,非侵襲的かつスケールが容易な新しい方法と,人間の顔のビデオから(隠れた)感情検出方法を提案する。
本手法では,映像中の顔の正確な位置を顔多様体検出と局所的な顔多様体埋め込みとを組み合わせることで,映像中の被験者の動きに不変な筋のマイクロムーブメント測定のための共通領域を作成する。
次のステップでは、デジタル画像スペックル相関(disc)とオプティカルフローアルゴリズムを用いて、顔のマイクロムーブメントのパターンを計算する。
対応するベクトル場は元の空間に写像され、ビデオの元のフレームに重畳される。
したがって、得られたビデオには、顔の筋肉の動きの方向に関する追加情報が含まれている。
公開されている可視的な感情のCK++データセットを、同じフォーマットの動画に加えて、隠れた感情を加えます。
我々は、マイクロモーション検出を用いてすべての動画を処理し、その結果を用いて、ビデオ -Frame Attention Network (FAN) からの感情分類のための最先端ネットワークをトレーニングする。
オリジナルのFANモデルは、元のCK++ビデオで非常に高いサンプリング性能を達成するが、隠れた感情ビデオではそれほどうまく機能しない。
モデルがトレーニングされ、筋肉運動のベクトル場を持つビデオでテストされると、パフォーマンスが大幅に向上する。
直感的には、対応する矢印は画像のエッジとして機能し、FANネットワークの畳み込みフィルタによって容易にキャプチャされる。
関連論文リスト
- Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos [23.153335327822685]
動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を学習する。
我々はビデオ観察から深い埋め込み特徴空間を学習するアルゴリズムであるMotion2Vecを紹介する。
この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。
論文 参考訳(メタデータ) (2020-05-31T15:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。