論文の概要: DIANet: A Phase-Aware Dual-Stream Network for Micro-Expression Recognition via Dynamic Images
- arxiv url: http://arxiv.org/abs/2510.12219v1
- Date: Tue, 14 Oct 2025 07:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.223416
- Title: DIANet: A Phase-Aware Dual-Stream Network for Micro-Expression Recognition via Dynamic Images
- Title(参考訳): DIANet:動的画像によるマイクロ圧縮認識のための位相対応デュアルストリームネットワーク
- Authors: Vu Tram Anh Khuong, Luu Tu Nguyen, Thi Bich Phuong Man, Thanh Ha Le, Thi Duyen Ngo,
- Abstract要約: マイクロ表現は短く、不随意的な顔の動きであり、通常は半秒未満で、しばしば本物の感情を表わす。
本稿では、位相認識動的画像を利用する新しいデュアルストリームフレームワークDIANetを提案する。
3つのベンチマークMERデータセットを用いて行った実験は、提案手法が従来の単相DIベースのアプローチよりも一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expressions are brief, involuntary facial movements that typically last less than half a second and often reveal genuine emotions. Accurately recognizing these subtle expressions is critical for applications in psychology, security, and behavioral analysis. However, micro-expression recognition (MER) remains a challenging task due to the subtle and transient nature of facial cues and the limited availability of annotated data. While dynamic image (DI) representations have been introduced to summarize temporal motion into a single frame, conventional DI-based methods often overlook the distinct characteristics of different temporal phases within a micro-expression. To address this issue, this paper proposes a novel dual-stream framework, DIANet, which leverages phase-aware dynamic images - one encoding the onset-to-apex phase and the other capturing the apex-to-offset phase. Each stream is processed by a dedicated convolutional neural network, and a cross-attention fusion module is employed to adaptively integrate features from both streams based on their contextual relevance. Extensive experiments conducted on three benchmark MER datasets (CASME-II, SAMM, and MMEW) demonstrate that the proposed method consistently outperforms conventional single-phase DI-based approaches. The results highlight the importance of modeling temporal phase information explicitly and suggest a promising direction for advancing MER.
- Abstract(参考訳): マイクロ表現は短く、不随意的な顔の動きであり、通常は半秒未満で、しばしば本物の感情を表わす。
これらの微妙な表現を正確に認識することは、心理学、セキュリティ、行動分析の応用において重要である。
しかし, マイクロ圧縮認識(MER)は, 顔の表情の微妙で過渡的な性質と, 注釈付きデータの限定的利用のため, 依然として困難な課題である。
動的画像(DI)表現は、時間的動きを1つのフレームにまとめるために導入されているが、従来のDIベースの手法は、マイクロ圧縮において異なる時間的位相の異なる特性を無視することが多い。
この問題に対処するため,本論文では,位相認識型動的画像を利用する新しいデュアルストリームフレームワークであるDIANetを提案する。
各ストリームは専用の畳み込みニューラルネットワークによって処理され、コンテキスト関連性に基づいて、両方のストリームからの機能を適応的に統合するために、クロスアテンション融合モジュールが使用される。
3つのベンチマークMERデータセット(CASME-II, SAMM, MMEW)で行った大規模な実験により,提案手法が従来の単相DIベースのアプローチより一貫して優れていることが示された。
その結果、時間相情報をモデル化することの重要性が強調され、MERを進めるための有望な方向が示唆された。
関連論文リスト
- FMANet: A Novel Dual-Phase Optical Flow Approach with Fusion Motion Attention Network for Robust Micro-expression Recognition [0.0]
微妙な顔の動きを捉えるのが難しいため、微小な表情認識は困難である。
本稿では,マイクロ圧縮相とマイクロ圧縮相の運動力学を統合記述子に統合した総合的な動き表現を提案する。
次に、二相解析と等級変調を学習可能なモジュールに内部化する、新しいエンドツーエンドニューラルネットワークアーキテクチャであるFMANetを提案する。
論文 参考訳(メタデータ) (2025-10-09T05:36:40Z) - Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。
本稿では,自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T13:22:22Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。