Fugu-MT 論文翻訳(概要): RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid

論文の概要: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid

arxiv url: http://arxiv.org/abs/2305.05523v1
Date: Tue, 9 May 2023 15:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-10 12:20:22.088762
Title: RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid
Title（参考訳）: RMES:Riesz Pyramidの位相を利用したリアルタイムマイクロ圧縮スポッティング
Authors: Yini Fang, Didan Deng, Liang Wu, Frederic Jumelle, Bertram Shi
Abstract要約: マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。最近の研究は、光学フローのような詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。本稿では,リアルタイムMEスポッティングフレームワークであるRMESを提案し,計算複雑性を低減し,リアルタイム操作を実現する。
参考スコア（独自算出の注目度）: 4.449835214520728
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Micro-expressions (MEs) are involuntary and subtle facial expressions that are thought to reveal feelings people are trying to hide. ME spotting detects the temporal intervals containing MEs in videos. Detecting such quick and subtle motions from long videos is difficult. Recent works leverage detailed facial motion representations, such as the optical flow, and deep learning models, leading to high computational complexity. To reduce computational complexity and achieve real-time operation, we propose RMES, a real-time ME spotting framework. We represent motion using phase computed by Riesz Pyramid, and feed this motion representation into a three-stream shallow CNN, which predicts the likelihood of each frame belonging to an ME. In comparison to optical flow, phase provides more localized motion estimates, which are essential for ME spotting, resulting in higher performance. Using phase also reduces the required computation of the ME spotting pipeline by 77.8%. Despite its relative simplicity and low computational complexity, our framework achieves state-of-the-art performance on two public datasets: CAS(ME)2 and SAMM Long Videos.
Abstract（参考訳）: マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。 MEスポッティングは、ビデオ中のMEを含む時間間隔を検出する。長いビデオからこのような迅速かつ微妙な動きを検出することは難しい。近年の研究では、光学フローやディープラーニングモデルなどの詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。計算複雑性を低減し,リアルタイム操作を実現するために,リアルタイムMEスポッティングフレームワークRMESを提案する。我々は、Riesz Pyramidによって計算された位相を用いて動きを表現し、この動きを3ストリームの浅瀬CNNに供給し、MEに属する各フレームの確率を予測する。光流と比較して位相はより局所的な運動推定を提供し、これはMEスポッティングに必須であり、より高い性能をもたらす。フェーズを使用すると、MEスポッティングパイプラインの必要な計算量が77.8%削減される。比較的単純で計算量も少ないが、2つの公開データセット(CAS(ME)2とSAMM Long Videos)で最先端のパフォーマンスを実現する。

関連論文リスト

Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文参考訳（メタデータ） (2025-06-28T15:24:05Z)
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering [55.30507585676142]
顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。 MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
論文参考訳（メタデータ） (2025-06-18T09:29:51Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。 Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文参考訳（メタデータ） (2025-04-14T10:14:44Z)
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文参考訳（メタデータ） (2024-11-15T03:45:09Z)
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。 Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文参考訳（メタデータ） (2024-08-30T17:52:55Z)
SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文参考訳（メタデータ） (2024-07-30T13:02:08Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
AU-aware graph convolutional network for Macro- and Micro-expression spotting [44.507747407072685]
我々はAUW-GCN(Action-Unit-aWare Graph Convolutional Network)と呼ばれるグラフ畳み込み型ネットワークを提案する。先行情報を注入し、小さなデータセットの問題に対処するために、AU関連統計データをネットワークにエンコードする。その結果, 2つのベンチマークデータセットにおいて, ベースライン手法を一貫して向上させ, 新たなSOTA性能を実現することができた。
論文参考訳（メタデータ） (2023-03-16T07:00:36Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文参考訳（メタデータ） (2022-10-12T11:19:55Z)
Lagrangian Motion Magnification with Double Sparse Optical Flow Decomposition [2.1028463367241033]
顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。まず、顔を深層学習するために、リカレントな全ペアフィールド変換(RAFT)を微調整する。第二に、顔の微小運動は空間と時間の両方で局所的であるので、空間と時間の両方でスパース成分を分解し、二重スパース分解をもたらすOF場を近似することを提案する。
論文参考訳（メタデータ） (2022-04-15T20:24:11Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression Spotting from Long Videos [15.322908569777551]
本稿では,表現区間にあるフレームの確率を推定するモデルを提案する。本稿では,最新のMEGC 2020ベンチマークにおいて提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2021-06-11T16:19:48Z)
PAN: Towards Fast Action Recognition via Learning Persistence of Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文参考訳（メタデータ） (2020-08-08T07:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。