論文の概要: Video Joint-Embedding Predictive Architectures for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2601.09524v1
- Date: Wed, 14 Jan 2026 14:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.43441
- Title: Video Joint-Embedding Predictive Architectures for Facial Expression Recognition
- Title(参考訳): 表情認識のためのビデオ共同埋め込み予測アーキテクチャ
- Authors: Lennart Eing, Cristina Luna-Jiménez, Silvan Mertes, Elisabeth André,
- Abstract要約: 本稿では,映像統合型予測アーキテクチャ(V-JEPA)の顔表情認識(FER)への応用について紹介する。
V-JEPAは、マスキング領域の埋め込みからマスクされた領域の埋め込みを予測することによって学習する。
我々は、RAVDESSとCREMA-Dデータセットを使用して浅い分類器を訓練し、RAVDESSの最先端性能を達成し、CREMA-Dの他の視覚ベースの手法よりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 10.013822837398044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.
- Abstract(参考訳): 本稿では,映像統合型予測アーキテクチャ(V-JEPA)の顔表情認識(FER)への応用について紹介する。
画素レベルの再構成に依存する従来のビデオ理解のための事前学習方法とは別に、V-JEPAはマスキング領域の埋め込みからマスキング領域の埋め込みを予測することによって学習する。
これにより、トレーニングされたエンコーダは、背景にあるピクセルの領域の色のような、所定のビデオに関する無関係な情報をキャプチャできない。
事前訓練されたV-JEPAビデオエンコーダを用いて、RAVDESSとCREMA-Dデータセットを使用して浅い分類器を訓練し、RAVDESSの最先端性能を達成し、CREMA-D(+1.48 WAR)の他の視覚ベースの手法よりも優れた性能を発揮する。
さらに、クロスデータセット評価は強力な一般化能力を示し、FERを前進させる純粋に埋め込みベースの事前学習アプローチの可能性を示している。
コードについてはhttps://github.com/lennarteingunia/vjepa-for-fer.comで公開しています。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。