論文の概要: Facial Emotion Learning with Text-Guided Multiview Fusion via Vision-Language Model for 3D/4D Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2507.01673v1
- Date: Wed, 02 Jul 2025 12:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.238767
- Title: Facial Emotion Learning with Text-Guided Multiview Fusion via Vision-Language Model for 3D/4D Facial Expression Recognition
- Title(参考訳): 3次元/4次元顔表情認識のための視覚言語モデルによるテキストガイド型マルチビューフュージョンによる顔表情学習
- Authors: Muzammil Behzad,
- Abstract要約: 3Dおよび4D領域における表情認識(FER)は、感情コンピューティングにおいて重要な課題である。
本稿では,3D/4D FERのための視覚言語フレームワークであるFACET-VLMを提案する。
我々のモデルは,BU-3DFE, Bosphorus, BU-4DFE, BP4D-Spontaneousなど,複数のベンチマークで最先端の精度を実現している。
- 参考スコア(独自算出の注目度): 1.03341388090561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression recognition (FER) in 3D and 4D domains presents a significant challenge in affective computing due to the complexity of spatial and temporal facial dynamics. Its success is crucial for advancing applications in human behavior understanding, healthcare monitoring, and human-computer interaction. In this work, we propose FACET-VLM, a vision-language framework for 3D/4D FER that integrates multiview facial representation learning with semantic guidance from natural language prompts. FACET-VLM introduces three key components: Cross-View Semantic Aggregation (CVSA) for view-consistent fusion, Multiview Text-Guided Fusion (MTGF) for semantically aligned facial emotions, and a multiview consistency loss to enforce structural coherence across views. Our model achieves state-of-the-art accuracy across multiple benchmarks, including BU-3DFE, Bosphorus, BU-4DFE, and BP4D-Spontaneous. We further extend FACET-VLM to 4D micro-expression recognition (MER) on the 4DME dataset, demonstrating strong performance in capturing subtle, short-lived emotional cues. The extensive experimental results confirm the effectiveness and substantial contributions of each individual component within the framework. Overall, FACET-VLM offers a robust, extensible, and high-performing solution for multimodal FER in both posed and spontaneous settings.
- Abstract(参考訳): 3Dおよび4D領域における表情認識(FER)は、空間的・時間的顔力学の複雑さにより、感情コンピューティングにおいて重要な課題となる。
その成功は、人間の行動理解、医療モニタリング、人間とコンピュータの相互作用における応用の進展に不可欠である。
本研究では,3D/4D FERのための視覚言語フレームワークであるFACET-VLMを提案する。
FACET-VLMは、ビュー一貫性融合のためのCross-View Semantic Aggregation (CVSA)、セマンティック・アライメント・アライメントのためのMultiview Text-Guided Fusion (MTGF)、ビュー間の構造的コヒーレンスを強制するマルチビュー一貫性損失の3つの主要なコンポーネントを導入している。
我々のモデルは,BU-3DFE, Bosphorus, BU-4DFE, BP4D-Spontaneousなど,複数のベンチマークで最先端の精度を実現している。
さらに、FACET-VLMを4DMEデータセット上で4Dマイクロ圧縮認識(MER)に拡張し、微妙で短命な感情的手がかりを捉える上で、強い性能を示す。
大規模な実験結果により、フレームワーク内の個々のコンポーネントの有効性と実質的な貢献が確認された。
全体として、FACET-VLMは、ポーズ設定と自然設定の両方において、マルチモーダルFERに対して堅牢で拡張可能で高性能なソリューションを提供する。
関連論文リスト
- Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
SMILE-VLMは3D/4D FERのための自己教師型視覚言語モデルである。
多視点視覚表現学習と自然言語指導を一体化する。
本フレームワークは,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T22:47:11Z) - Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
3D/4Dデータから顔感情の教師なしコントラクティブなマルチビュー表現学習のための視覚言語モデルであるMultiviewVLMを紹介した。
我々のアーキテクチャは、生成したテキストプロンプトから派生した擬似ラベルを統合し、感情的意味論の暗黙的なアライメントを導く。
我々は、新しいマルチビューコントラスト学習戦略により、モデルの識別可能性をさらに強化する。
論文 参考訳(メタデータ) (2025-05-14T12:31:21Z) - Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model [19.091907959433073]
AffectVLMは3D/4Dデータから顔の感情を、意味的に豊かで視覚的に包括的に理解するために、多視点を統合した視覚言語モデルである。
本稿では,モデル収束を最適な特徴表現へ加速する,新しい勾配に優しい損失関数と組み合わせた共同表現学習フレームワークを提案する。
また、リアルタイム対話型推論のためのStreamlitアプリを開発し、分散学習のためのモデルを可能にします。
論文 参考訳(メタデータ) (2025-04-28T12:36:14Z) - Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis [5.795431510723275]
マルチモーダル顔状態解析のための包括的パイプラインを提案する。
本稿では,アクション・ユニット(AU)と感情認識に適した,新しいマルチレベル・マルチモーダル・フェイス・ファンデーション・モデル(MF2)を提案する。
実験は、AUと感情検出タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-14T16:00:57Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Affective Behaviour Analysis via Integrating Multi-Modal Knowledge [24.74463315135503]
ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。
本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
論文 参考訳(メタデータ) (2024-03-16T06:26:43Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。