論文の概要: Improving Micro-Expression Recognition with Phase-Aware Temporal Augmentation
- arxiv url: http://arxiv.org/abs/2510.15466v1
- Date: Fri, 17 Oct 2025 09:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.555737
- Title: Improving Micro-Expression Recognition with Phase-Aware Temporal Augmentation
- Title(参考訳): 位相対応時間拡張によるマイクロ圧縮認識の改善
- Authors: Vu Tram Anh Khuong, Luu Tu Nguyen, Thanh Ha Le, Thi Duyen Ngo,
- Abstract要約: マイクロ・エクスプレッション(ME)は、半秒未満の真の感情を示す、簡潔で不随意的な顔の動きである。
深層学習は、マイクロ圧縮認識(MER)に大きな進歩をもたらしたが、その効果は、注釈付きMEデータセットの不足によって制限されている。
本稿では動的画像に基づく位相認識時間拡張法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expressions (MEs) are brief, involuntary facial movements that reveal genuine emotions, typically lasting less than half a second. Recognizing these subtle expressions is critical for applications in psychology, security, and behavioral analysis. Although deep learning has enabled significant advances in micro-expression recognition (MER), its effectiveness is limited by the scarcity of annotated ME datasets. This data limitation not only hinders generalization but also restricts the diversity of motion patterns captured during training. Existing MER studies predominantly rely on simple spatial augmentations (e.g., flipping, rotation) and overlook temporal augmentation strategies that can better exploit motion characteristics. To address this gap, this paper proposes a phase-aware temporal augmentation method based on dynamic image. Rather than encoding the entire expression as a single onset-to-offset dynamic image (DI), our approach decomposes each expression sequence into two motion phases: onset-to-apex and apex-to-offset. A separate DI is generated for each phase, forming a Dual-phase DI augmentation strategy. These phase-specific representations enrich motion diversity and introduce complementary temporal cues that are crucial for recognizing subtle facial transitions. Extensive experiments on CASME-II and SAMM datasets using six deep architectures, including CNNs, Vision Transformer, and the lightweight LEARNet, demonstrate consistent performance improvements in recognition accuracy, unweighted F1-score, and unweighted average recall, which are crucial for addressing class imbalance in MER. When combined with spatial augmentations, our method achieves up to a 10\% relative improvement. The proposed augmentation is simple, model-agnostic, and effective in low-resource settings, offering a promising direction for robust and generalizable MER.
- Abstract(参考訳): マイクロ・エクスプレッション(ME)は、半秒未満の真の感情を示す、簡潔で不随意的な顔の動きである。
これらの微妙な表現を認識することは、心理学、セキュリティ、行動分析の応用において重要である。
深層学習はマイクロ圧縮認識(MER)に大きな進歩をもたらしたが、その効果は注釈付きMEデータセットの不足によって制限されている。
このデータ制限は、一般化を妨げるだけでなく、トレーニング中に捉えた動きパターンの多様性も制限する。
既存のMER研究は主に、単純な空間的増強(例えば、回転、回転)と、運動特性をよりうまく活用できる時間的増強戦略に依存している。
このギャップに対処するために,動的画像に基づく位相認識時間拡張法を提案する。
本手法では,表現全体を単一のオンセット・トゥ・オフセット・ダイナミック・イメージ(DI)として符号化するのではなく,各表現列をオンセット・トゥ・アペックスとアペックス・トゥ・オフセットの2つの動作位相に分解する。
各相毎に別々のDIを生成し、デュアルフェーズDI増強戦略を形成する。
これらの相特異的な表現は、動きの多様性を豊かにし、微妙な顔の遷移を認識するのに不可欠な相補的な時間的手がかりを導入する。
CNN、Vision Transformer、軽量LEARNetを含む6つの深層アーキテクチャを用いたCASME-IIおよびSAMMデータセットの大規模な実験は、認識精度、未重み付きF1スコア、および非重み付き平均リコールにおいて一貫した性能向上を示し、これはMERにおけるクラス不均衡に対処するために不可欠である。
空間拡張と組み合わせることで, 最大10倍の相対的改善が達成される。
提案した拡張は単純で、モデルに依存しず、低リソース設定で有効であり、堅牢で一般化可能なMERに対して有望な方向を提供する。
関連論文リスト
- DIANet: A Phase-Aware Dual-Stream Network for Micro-Expression Recognition via Dynamic Images [0.0]
マイクロ表現は短く、不随意的な顔の動きであり、通常は半秒未満で、しばしば本物の感情を表わす。
本稿では、位相認識動的画像を利用する新しいデュアルストリームフレームワークDIANetを提案する。
3つのベンチマークMERデータセットを用いて行った実験は、提案手法が従来の単相DIベースのアプローチよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-10-14T07:15:29Z) - Adaptive Fusion Network with Temporal-Ranked and Motion-Intensity Dynamic Images for Micro-expression Recognition [0.0]
マイクロ・エクスプレッション(ME)は微妙で過渡的な顔の変化であり、非常に低強度であり、肉眼ではほとんど知覚できない。
本稿では2つの主な貢献点を持つ新しいMER法を提案する。
まず,時間的進行を重視したテンポラルランク動的画像と,動きの強度を取り入れたフレームリオーダー機構による微妙な動きを強調するモーションインテンシティ動的画像の2つの相補的表現を提案する。
第2に,これら2つの表現を最適に統合することを自動的に学習し,雑音を抑えながら識別的ME特性を向上する適応融合ネットワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:03:20Z) - FMANet: A Novel Dual-Phase Optical Flow Approach with Fusion Motion Attention Network for Robust Micro-expression Recognition [0.0]
微妙な顔の動きを捉えるのが難しいため、微小な表情認識は困難である。
本稿では,マイクロ圧縮相とマイクロ圧縮相の運動力学を統合記述子に統合した総合的な動き表現を提案する。
次に、二相解析と等級変調を学習可能なモジュールに内部化する、新しいエンドツーエンドニューラルネットワークアーキテクチャであるFMANetを提案する。
論文 参考訳(メタデータ) (2025-10-09T05:36:40Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [83.48170683672427]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - SMA-STN: Segmented Movement-Attending Spatiotemporal Network
forMicro-Expression Recognition [20.166205708651194]
本稿では,視覚的に視覚的に微妙な動き変化を明らかにするために,SMA-STN( segmented movement-attending network)を提案する。
CALoss II、SAMM、ShiCの3つの広く使われているベンチマークに対する大規模な実験は、提案されたSMA-STNが他の最先端手法よりも優れたMER性能を達成することを示している。
論文 参考訳(メタデータ) (2020-10-19T09:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。