論文の概要: Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2506.01203v1
- Date: Sun, 01 Jun 2025 22:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.98887
- Title: Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition
- Title(参考訳): 3次元/4次元顔表情認識のための視覚言語モデルを用いた自己教師付き多視点表現学習
- Authors: Muzammil Behzad,
- Abstract要約: SMILE-VLMは3D/4D FERのための自己教師型視覚言語モデルである。
多視点視覚表現学習と自然言語指導を一体化する。
本フレームワークは,複数のベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 1.03341388090561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expression recognition (FER) is a fundamental task in affective computing with applications in human-computer interaction, mental health analysis, and behavioral understanding. In this paper, we propose SMILE-VLM, a self-supervised vision-language model for 3D/4D FER that unifies multiview visual representation learning with natural language supervision. SMILE-VLM learns robust, semantically aligned, and view-invariant embeddings by proposing three core components: multiview decorrelation via a Barlow Twins-style loss, vision-language contrastive alignment, and cross-modal redundancy minimization. Our framework achieves the state-of-the-art performance on multiple benchmarks. We further extend SMILE-VLM to the task of 4D micro-expression recognition (MER) to recognize the subtle affective cues. The extensive results demonstrate that SMILE-VLM not only surpasses existing unsupervised methods but also matches or exceeds supervised baselines, offering a scalable and annotation-efficient solution for expressive facial behavior understanding.
- Abstract(参考訳): 表情認識(FER)は、人間とコンピュータの相互作用、メンタルヘルス分析、行動理解に応用された感情コンピューティングの基本的なタスクである。
本稿では3D/4D FERのための自己教師型視覚言語モデルSMILE-VLMを提案する。
SMILE-VLMは、バーロウツインズスタイルの損失によるマルチビューデコレーション、視覚言語によるコントラストアライメント、モーダルな冗長性の最小化という3つのコアコンポーネントを提案することで、堅牢でセマンティックなアライメント、ビュー不変の埋め込みを学習する。
本フレームワークは,複数のベンチマーク上での最先端性能を実現する。
我々はさらにSMILE-VLMを4Dマイクロ圧縮認識(MER)タスクに拡張し、微妙な感情的手がかりを認識する。
その結果、SMILE-VLMは既存の教師なしの手法を超越するだけでなく、教師付きベースラインを超越し、表現力のある顔行動理解のためのスケーラブルでアノテーション効率の良いソリューションを提供することがわかった。
関連論文リスト
- Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
3D/4Dデータから顔感情の教師なしコントラクティブなマルチビュー表現学習のための視覚言語モデルであるMultiviewVLMを紹介した。
我々のアーキテクチャは、生成したテキストプロンプトから派生した擬似ラベルを統合し、感情的意味論の暗黙的なアライメントを導く。
我々は、新しいマルチビューコントラスト学習戦略により、モデルの識別可能性をさらに強化する。
論文 参考訳(メタデータ) (2025-05-14T12:31:21Z) - Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model [19.091907959433073]
AffectVLMは3D/4Dデータから顔の感情を、意味的に豊かで視覚的に包括的に理解するために、多視点を統合した視覚言語モデルである。
本稿では,モデル収束を最適な特徴表現へ加速する,新しい勾配に優しい損失関数と組み合わせた共同表現学習フレームワークを提案する。
また、リアルタイム対話型推論のためのStreamlitアプリを開発し、分散学習のためのモデルを可能にします。
論文 参考訳(メタデータ) (2025-04-28T12:36:14Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。