論文の概要: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid
- arxiv url: http://arxiv.org/abs/2305.05523v1
- Date: Tue, 9 May 2023 15:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:20:22.088762
- Title: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid
- Title(参考訳): RMES:Riesz Pyramidの位相を利用したリアルタイムマイクロ圧縮スポッティング
- Authors: Yini Fang, Didan Deng, Liang Wu, Frederic Jumelle, Bertram Shi
- Abstract要約: マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。
最近の研究は、光学フローのような詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。
本稿では,リアルタイムMEスポッティングフレームワークであるRMESを提案し,計算複雑性を低減し,リアルタイム操作を実現する。
- 参考スコア(独自算出の注目度): 4.449835214520728
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Micro-expressions (MEs) are involuntary and subtle facial expressions that
are thought to reveal feelings people are trying to hide. ME spotting detects
the temporal intervals containing MEs in videos. Detecting such quick and
subtle motions from long videos is difficult. Recent works leverage detailed
facial motion representations, such as the optical flow, and deep learning
models, leading to high computational complexity. To reduce computational
complexity and achieve real-time operation, we propose RMES, a real-time ME
spotting framework. We represent motion using phase computed by Riesz Pyramid,
and feed this motion representation into a three-stream shallow CNN, which
predicts the likelihood of each frame belonging to an ME. In comparison to
optical flow, phase provides more localized motion estimates, which are
essential for ME spotting, resulting in higher performance. Using phase also
reduces the required computation of the ME spotting pipeline by 77.8%. Despite
its relative simplicity and low computational complexity, our framework
achieves state-of-the-art performance on two public datasets: CAS(ME)2 and SAMM
Long Videos.
- Abstract(参考訳): マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。
MEスポッティングは、ビデオ中のMEを含む時間間隔を検出する。
長いビデオからこのような迅速かつ微妙な動きを検出することは難しい。
近年の研究では、光学フローやディープラーニングモデルなどの詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。
計算複雑性を低減し,リアルタイム操作を実現するために,リアルタイムMEスポッティングフレームワークRMESを提案する。
我々は、Riesz Pyramidによって計算された位相を用いて動きを表現し、この動きを3ストリームの浅瀬CNNに供給し、MEに属する各フレームの確率を予測する。
光流と比較して位相はより局所的な運動推定を提供し、これはMEスポッティングに必須であり、より高い性能をもたらす。
フェーズを使用すると、MEスポッティングパイプラインの必要な計算量が77.8%削減される。
比較的単純で計算量も少ないが、2つの公開データセット(CAS(ME)2とSAMM Long Videos)で最先端のパフォーマンスを実現する。
関連論文リスト
- Unsupervised motion segmentation in one go: Smooth long-term model over
a video [6.853165736531941]
完全教師なし方式で動作させる新しい長期的モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
定量的な結果を得た4つのVOSベンチマーク実験について報告する。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - AU-aware graph convolutional network for Macro- and Micro-expression
spotting [44.507747407072685]
我々はAUW-GCN(Action-Unit-aWare Graph Convolutional Network)と呼ばれるグラフ畳み込み型ネットワークを提案する。
先行情報を注入し、小さなデータセットの問題に対処するために、AU関連統計データをネットワークにエンコードする。
その結果, 2つのベンチマークデータセットにおいて, ベースライン手法を一貫して向上させ, 新たなSOTA性能を実現することができた。
論文 参考訳(メタデータ) (2023-03-16T07:00:36Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Lagrangian Motion Magnification with Double Sparse Optical Flow
Decomposition [2.1028463367241033]
顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。
まず、顔を深層学習するために、リカレントな全ペアフィールド変換(RAFT)を微調整する。
第二に、顔の微小運動は空間と時間の両方で局所的であるので、空間と時間の両方でスパース成分を分解し、二重スパース分解をもたらすOF場を近似することを提案する。
論文 参考訳(メタデータ) (2022-04-15T20:24:11Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression
Spotting from Long Videos [15.322908569777551]
本稿では,表現区間にあるフレームの確率を推定するモデルを提案する。
本稿では,最新のMEGC 2020ベンチマークにおいて提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-06-11T16:19:48Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。