論文の概要: Grounding Emotion Recognition with Visual Prototypes: VEGA -- Revisiting CLIP in MERC
- arxiv url: http://arxiv.org/abs/2508.06564v1
- Date: Wed, 06 Aug 2025 19:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.440624
- Title: Grounding Emotion Recognition with Visual Prototypes: VEGA -- Revisiting CLIP in MERC
- Title(参考訳): 視覚プロトタイプを用いた接地感情認識:VEGA -- MERCにおけるCLIPの再検討
- Authors: Guanyu Hu, Dimitrios Kollias, Xinyu Yang,
- Abstract要約: 会話におけるマルチ感情認識は、テキスト、音響、視覚信号の複雑な相互作用のため、依然として困難な課題である。
本稿では,統合と分類プロセスにクラスレベルの視覚的意味論を導入する新しいビジュアル感情ガイドアンコリング(VEGA)機構を提案する。
- 参考スコア(独自算出の注目度): 28.0227032445724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Emotion Recognition in Conversations remains a challenging task due to the complex interplay of textual, acoustic and visual signals. While recent models have improved performance via advanced fusion strategies, they often lack psychologically meaningful priors to guide multimodal alignment. In this paper, we revisit the use of CLIP and propose a novel Visual Emotion Guided Anchoring (VEGA) mechanism that introduces class-level visual semantics into the fusion and classification process. Distinct from prior work that primarily utilizes CLIP's textual encoder, our approach leverages its image encoder to construct emotion-specific visual anchors based on facial exemplars. These anchors guide unimodal and multimodal features toward a perceptually grounded and psychologically aligned representation space, drawing inspiration from cognitive theories (prototypical emotion categories and multisensory integration). A stochastic anchor sampling strategy further enhances robustness by balancing semantic stability and intra-class diversity. Integrated into a dual-branch architecture with self-distillation, our VEGA-augmented model achieves sota performance on IEMOCAP and MELD. Code is available at: https://github.com/dkollias/VEGA.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識は、テキスト、音響、視覚信号の複雑な相互作用のため、依然として困難な課題である。
最近のモデルでは、高度な融合戦略によって性能が向上しているが、多モードアライメントを導くための心理的に意味のある事前の欠如がしばしばある。
本稿では,CLIPの使用を再考し,統合と分類プロセスにクラスレベルの視覚意味論を導入する新しいビジュアル感情ガイドアンチョリング(VEGA)機構を提案する。
この手法は,CLIPのテキストエンコーダを主に活用する以前の作業と異なり,その画像エンコーダを活用し,顔見本に基づく感情特異的視覚アンカーを構築する。
これらのアンカーは、認知理論(原型的感情カテゴリーと多感覚統合)からインスピレーションを得て、知覚的基盤と心理的に整合した表現空間へと一様・多様の特徴を導く。
確率的アンカーサンプリング戦略は、意味的安定性とクラス内多様性のバランスをとることにより、ロバスト性をさらに向上する。
VEGA拡張モデルにより,IEMOCAPおよびMELD上でのソタ性能を実現する。
コードは、https://github.com/dkollias/VEGA.comで入手できる。
関連論文リスト
- VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。
MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。
このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文 参考訳(メタデータ) (2025-03-16T19:32:32Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。