論文の概要: Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild
- arxiv url: http://arxiv.org/abs/2603.11306v1
- Date: Wed, 11 Mar 2026 21:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.645883
- Title: Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild
- Title(参考訳): 野生におけるロバストマルチモーダルAU検出のための階層的粒度アライメントと状態空間モデリング
- Authors: Jun Yu, Yunxiang Zhang, Naixiang Zheng, Lingsi Zhu, Guoyuan Wang,
- Abstract要約: 階層的粒度アライメントと状態空間モデルによって駆動される新しいマルチモーダルフレームワークを提案する。
従来の時間畳み込みネットワークの受容的フィールド制限を、ビジョン・マンバアーキテクチャを導入して克服する。
このアプローチにより、O(N)線形複雑性を伴う時間的モデリングが可能となり、性能劣化を伴わずに超長距離力学を効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 12.893641381621459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Action Unit (AU) detection in in-the-wild environments remains a formidable challenge due to severe spatial-temporal heterogeneity, unconstrained poses, and complex audio-visual dependencies. While recent multimodal approaches have made progress, they often rely on capacity-limited encoders and shallow fusion mechanisms that fail to capture fine-grained semantic shifts and ultra-long temporal contexts. To bridge this gap, we propose a novel multimodal framework driven by Hierarchical Granularity Alignment and State Space Models.Specifically, we leverage powerful foundation models, namely DINOv2 and WavLM, to extract robust and high-fidelity visual and audio representations, effectively replacing traditional feature extractors. To handle extreme facial variations, our Hierarchical Granularity Alignment module dynamically aligns global facial semantics with fine-grained local active patches. Furthermore, we overcome the receptive field limitations of conventional temporal convolutional networks by introducing a Vision-Mamba architecture. This approach enables temporal modeling with O(N) linear complexity, effectively capturing ultra-long-range dynamics without performance degradation. A novel asymmetric cross-attention mechanism is also introduced to deeply synchronize paralinguistic audio cues with subtle visual movements.Extensive experiments on the challenging Aff-Wild2 dataset demonstrate that our approach significantly outperforms existing baselines, achieving state-of-the-art performance. Notably, this framework secured top rankings in the AU Detection track of the 10th Affective Behavior Analysis in-the-wild Competition.
- Abstract(参考訳): 周辺環境における顔行動単位(AU)の検出は、空間的・時間的不均一性、制約のないポーズ、複雑な音声・視覚的依存などにより、依然として困難な課題である。
最近のマルチモーダルアプローチは進歩しているが、しばしばキャパシティ限定エンコーダと浅い融合機構に頼り、微粒なセマンティックシフトや超長期の時間的コンテキストを捉えない。
このギャップを埋めるために、階層的粒度アライメントと状態空間モデルによって駆動される新しいマルチモーダルフレームワークを提案し、特に、DINOv2とWavLMという強力な基盤モデルを利用して、頑健で高忠実な視覚的・音声的表現を抽出し、従来の特徴抽出器を効果的に置き換える。
極端な顔のバリエーションに対処するため、階層的粒度調整モジュールは、グローバルな顔のセマンティクスと、きめ細かい局所的なアクティブパッチを動的に調整します。
さらに,Vision-Mambaアーキテクチャを導入することで,従来の時間畳み込みネットワークの受容的フィールド制限を克服する。
このアプローチにより、O(N)線形複雑性を伴う時間的モデリングが可能となり、性能劣化を伴わずに超長距離力学を効果的に捉えることができる。
Aff-Wild2データセットを用いた実験により,本手法が既存のベースラインを著しく上回り,最先端の性能を実現していることが示された。
このフレームワークは、第10回Affective Behavior Analysis in-the-wild CompetitionのAU検出トラックで上位にランクインした。
関連論文リスト
- IdGlow: Dynamic Identity Modulation for Multi-Subject Generation [23.20674988897558]
We present IdGlow, a mask-free, progressive two-stage framework built on Flow Matching diffusion model。
教師付き微調整(SFT)の段階では、拡散生成力学に対応するタスク適応型時間ステップスケジューリングを導入する。
第2段階では,マルチオブジェクトアーティファクトを同時に除去するために,重み付きマージンの定式化を施したファイングラインド・グループレベル直接選好最適化(DPO)を設計する。
論文 参考訳(メタデータ) (2026-02-28T11:56:34Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition [3.431054404120758]
本稿では,階層型ネットワーク(HiH)におけるマルチモーダル階層(Hierarchy in Hierarchy Network)について述べる。
HiH は階層的なゲイト・デコンポザ・モジュールを用いてシルエットデータから一般的なゲイト・パターンの深度的およびモジュール内階層的な検証を行う主ブランチを特徴とする。
2次元関節配列に基づく補助枝は、歩行解析の空間的側面と時間的側面を豊かにする。
論文 参考訳(メタデータ) (2023-11-19T03:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。