論文の概要: Dual-View Optical Flow for 4D Micro-Expression Recognition - A Multi-Stream Fusion Attention Approach
- arxiv url: http://arxiv.org/abs/2603.26849v1
- Date: Fri, 27 Mar 2026 10:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.666393
- Title: Dual-View Optical Flow for 4D Micro-Expression Recognition - A Multi-Stream Fusion Attention Approach
- Title(参考訳): 4次元マイクロ圧縮認識のためのデュアルビュー光流 -マルチストリーム核融合アテンションアプローチ
- Authors: Luu Tu Nguyen, Thi Bich Phuong Man, Vu Tram Anh Khuong, Thanh Ha Le, Thi Duyen Ngo,
- Abstract要約: マイクロ圧縮認識は、感情コンピューティングには不可欠であるが、短い、低強度の顔の動きが関与しているため、依然として困難である。
本稿では,2つの同期視点から各マイクロ圧縮シーケンスをキャプチャすることで,メッシュ処理を簡略化する2視点光フロー手法を提案する。
本手法は,4DMR IJCAI Workshop Challenge 2025において,マクロUF1スコアの0.536を達成し,公式ベースラインを50%以上上回り,第1位を確保した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expression recognition is vital for affective computing but remains challenging due to the extremely brief, low-intensity facial motions involved and the high-dimensional nature of 4D mesh data. To address these challenges, we introduce a dual-view optical flow approach that simplifies mesh processing by capturing each micro-expression sequence from two synchronized viewpoints and computing optical flow to represent motion. Our pipeline begins with view separation and sequence-wise face cropping to ensure spatial consistency, followed by automatic apex-frame detection based on peak motion intensity in both views. We decompose each sequence into onset-apex and apex-offset phases, extracting horizontal, vertical, and magnitude flow channels for each phase. These are fed into our Triple-Stream MicroAttNet, which employs a fusion attention module to adaptively weight modality-specific features and a squeeze-and-excitation block to enhance magnitude representations. Training uses focal loss to mitigate class imbalance and the Adam optimizer with early stopping. Evaluated on the multi-label 4DME dataset, comprising 24 subjects and five emotion categories, in the 4DMR IJCAI Workshop Challenge 2025, our method achieves a macro-UF1 score of 0.536, outperforming the official baseline by over 50\% and securing first place. Ablation studies confirm that both the fusion attention and SE components each contribute up to 3.6 points of UF1 gain. These results demonstrate that dual-view, phase-aware optical flow combined with multi-stream fusion yields a robust and interpretable solution for 4D micro-expression recognition.
- Abstract(参考訳): マイクロ圧縮認識は、感情コンピューティングには不可欠であるが、非常に短く、低強度な顔の動きと、4Dメッシュデータの高次元の性質のため、依然として困難である。
これらの課題に対処するために、我々は2つの同期された視点から各マイクロ圧縮シーケンスをキャプチャし、動きを表現するための光フローを計算することにより、メッシュ処理を単純化するデュアルビュー光フローアプローチを導入する。
我々のパイプラインは、ビュー分離とシーケンシャルな顔のトリミングから始まり、両ビューのピーク運動強度に基づいた自動頂点フレーム検出を行う。
それぞれの配列をオンセット・アプレックス・アペックス・オフセット相とアペックス・オフセット相に分解し,各相の水平,垂直,等級の流路を抽出する。
このモジュールは、適応的にモダリティ固有の特徴を重み付けするための融合アテンションモジュールと、大きさの表現を強化するための圧縮・アンド・エキサイクリングブロックを用いています。
訓練は焦点損失を利用してクラス不均衡を緩和し、アダム最適化器を早期停止させる。
4DMR IJCAI Workshop Challenge 2025において、24の被験者と5つの感情カテゴリーからなるマルチラベル4DMEデータセットを評価した結果、マクロUF1スコアが0.536となり、公式ベースラインを50%以上上回り、第1位を確保した。
アブレーション研究により、融合注意とSE成分の両方がUF1ゲインの3.6ポイントに寄与することが確認された。
これらの結果から, 2次元位相認識型光流とマルチストリーム融合が組み合わせることで, 4次元マイクロ圧縮認識のための頑健かつ解釈可能な解が得られることが示された。
関連論文リスト
- DIANet: A Phase-Aware Dual-Stream Network for Micro-Expression Recognition via Dynamic Images [0.0]
マイクロ表現は短く、不随意的な顔の動きであり、通常は半秒未満で、しばしば本物の感情を表わす。
本稿では、位相認識動的画像を利用する新しいデュアルストリームフレームワークDIANetを提案する。
3つのベンチマークMERデータセットを用いて行った実験は、提案手法が従来の単相DIベースのアプローチよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-10-14T07:15:29Z) - FMANet: A Novel Dual-Phase Optical Flow Approach with Fusion Motion Attention Network for Robust Micro-expression Recognition [0.0]
微妙な顔の動きを捉えるのが難しいため、微小な表情認識は困難である。
本稿では,マイクロ圧縮相とマイクロ圧縮相の運動力学を統合記述子に統合した総合的な動き表現を提案する。
次に、二相解析と等級変調を学習可能なモジュールに内部化する、新しいエンドツーエンドニューラルネットワークアーキテクチャであるFMANetを提案する。
論文 参考訳(メタデータ) (2025-10-09T05:36:40Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - PAENet: A Progressive Attention-Enhanced Network for 3D to 2D Retinal
Vessel Segmentation [0.0]
光コヒーレンス・トモグラフィー(OCTA)画像では3次元から2次元の網膜血管セグメンテーションは難しい問題である。
本稿では,多機能表現を抽出するアテンション機構に基づくプログレッシブ・アテンション・エンハンスメント・ネットワーク(PAENet)を提案する。
提案アルゴリズムは,従来の手法と比較して最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-26T10:27:25Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。