論文の概要: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid
- arxiv url: http://arxiv.org/abs/2305.05523v1
- Date: Tue, 9 May 2023 15:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:20:22.088762
- Title: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid
- Title(参考訳): RMES:Riesz Pyramidの位相を利用したリアルタイムマイクロ圧縮スポッティング
- Authors: Yini Fang, Didan Deng, Liang Wu, Frederic Jumelle, Bertram Shi
- Abstract要約: マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。
最近の研究は、光学フローのような詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。
本稿では,リアルタイムMEスポッティングフレームワークであるRMESを提案し,計算複雑性を低減し,リアルタイム操作を実現する。
- 参考スコア(独自算出の注目度): 4.449835214520728
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Micro-expressions (MEs) are involuntary and subtle facial expressions that
are thought to reveal feelings people are trying to hide. ME spotting detects
the temporal intervals containing MEs in videos. Detecting such quick and
subtle motions from long videos is difficult. Recent works leverage detailed
facial motion representations, such as the optical flow, and deep learning
models, leading to high computational complexity. To reduce computational
complexity and achieve real-time operation, we propose RMES, a real-time ME
spotting framework. We represent motion using phase computed by Riesz Pyramid,
and feed this motion representation into a three-stream shallow CNN, which
predicts the likelihood of each frame belonging to an ME. In comparison to
optical flow, phase provides more localized motion estimates, which are
essential for ME spotting, resulting in higher performance. Using phase also
reduces the required computation of the ME spotting pipeline by 77.8%. Despite
its relative simplicity and low computational complexity, our framework
achieves state-of-the-art performance on two public datasets: CAS(ME)2 and SAMM
Long Videos.
- Abstract(参考訳): マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。
MEスポッティングは、ビデオ中のMEを含む時間間隔を検出する。
長いビデオからこのような迅速かつ微妙な動きを検出することは難しい。
近年の研究では、光学フローやディープラーニングモデルなどの詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。
計算複雑性を低減し,リアルタイム操作を実現するために,リアルタイムMEスポッティングフレームワークRMESを提案する。
我々は、Riesz Pyramidによって計算された位相を用いて動きを表現し、この動きを3ストリームの浅瀬CNNに供給し、MEに属する各フレームの確率を予測する。
光流と比較して位相はより局所的な運動推定を提供し、これはMEスポッティングに必須であり、より高い性能をもたらす。
フェーズを使用すると、MEスポッティングパイプラインの必要な計算量が77.8%削減される。
比較的単純で計算量も少ないが、2つの公開データセット(CAS(ME)2とSAMM Long Videos)で最先端のパフォーマンスを実現する。
関連論文リスト
- Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。
エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。
Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文 参考訳(メタデータ) (2024-08-30T17:52:55Z) - SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。
第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文 参考訳(メタデータ) (2024-07-30T13:02:08Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - AU-aware graph convolutional network for Macro- and Micro-expression
spotting [44.507747407072685]
我々はAUW-GCN(Action-Unit-aWare Graph Convolutional Network)と呼ばれるグラフ畳み込み型ネットワークを提案する。
先行情報を注入し、小さなデータセットの問題に対処するために、AU関連統計データをネットワークにエンコードする。
その結果, 2つのベンチマークデータセットにおいて, ベースライン手法を一貫して向上させ, 新たなSOTA性能を実現することができた。
論文 参考訳(メタデータ) (2023-03-16T07:00:36Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Lagrangian Motion Magnification with Double Sparse Optical Flow
Decomposition [2.1028463367241033]
顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。
まず、顔を深層学習するために、リカレントな全ペアフィールド変換(RAFT)を微調整する。
第二に、顔の微小運動は空間と時間の両方で局所的であるので、空間と時間の両方でスパース成分を分解し、二重スパース分解をもたらすOF場を近似することを提案する。
論文 参考訳(メタデータ) (2022-04-15T20:24:11Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression
Spotting from Long Videos [15.322908569777551]
本稿では,表現区間にあるフレームの確率を推定するモデルを提案する。
本稿では,最新のMEGC 2020ベンチマークにおいて提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-06-11T16:19:48Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。