論文の概要: Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion Recognition
- arxiv url: http://arxiv.org/abs/2505.19694v1
- Date: Mon, 26 May 2025 08:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.295045
- Title: Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion Recognition
- Title(参考訳): 教師なしクロスドメイン視覚認識のための知識適応型対効果拡散知覚
- Authors: Wen Yin, Yong Wang, Guiduo Duan, Dongyang Zhang, Xin Hu, Yuan-Fang Li, Tao He,
- Abstract要約: Unsupervised Cross-Domain Visual Emotion Recognition (UCDVER) タスクは、ソースドメインから低リソースターゲットドメインへの視覚的感情認識を一般化することを目的としている。
これらの問題を緩和するため,我々はKCDP(Knowledge-aligned Counterfactual-Enhancement Diffusion Perception)フレームワークを提案する。
本モデルでは,SOTA VERモデルであるTGCA-PVTよりも12%改善した。
- 参考スコア(独自算出の注目度): 23.396309161898465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Emotion Recognition (VER) is a critical yet challenging task aimed at inferring emotional states of individuals based on visual cues. However, existing works focus on single domains, e.g., realistic images or stickers, limiting VER models' cross-domain generalizability. To fill this gap, we introduce an Unsupervised Cross-Domain Visual Emotion Recognition (UCDVER) task, which aims to generalize visual emotion recognition from the source domain (e.g., realistic images) to the low-resource target domain (e.g., stickers) in an unsupervised manner. Compared to the conventional unsupervised domain adaptation problems, UCDVER presents two key challenges: a significant emotional expression variability and an affective distribution shift. To mitigate these issues, we propose the Knowledge-aligned Counterfactual-enhancement Diffusion Perception (KCDP) framework. Specifically, KCDP leverages a VLM to align emotional representations in a shared knowledge space and guides diffusion models for improved visual affective perception. Furthermore, a Counterfactual-Enhanced Language-image Emotional Alignment (CLIEA) method generates high-quality pseudo-labels for the target domain. Extensive experiments demonstrate that our model surpasses SOTA models in both perceptibility and generalization, e.g., gaining 12% improvements over the SOTA VER model TGCA-PVT. The project page is at https://yinwen2019.github.io/ucdver.
- Abstract(参考訳): 視覚的感情認識(VER)は、視覚的手がかりに基づく個人の感情状態の推測を目的とした、批判的かつ困難な課題である。
しかし、既存の研究は単一のドメイン、例えば、現実的なイメージやステッカーに焦点を当てており、VERモデルのクロスドメインの一般化性を制限している。
このギャップを埋めるために,Unsupervised Cross-Domain Visual Emotion Recognition (UCDVER)タスクを導入する。これは,ソースドメイン(例えば,リアルイメージ)から低リソースターゲットドメイン(例えば,ステッカー)への視覚的感情認識を,教師なしの方法で一般化することを目的としている。
従来の教師なし領域適応問題と比較すると、UCCDVERは2つの重要な課題を提示している。
これらの問題を緩和するため,我々はKCDP(Knowledge-aligned Counterfactual-Enhancement Diffusion Perception)フレームワークを提案する。
具体的には、KCDPはVLMを活用して、共有知識空間における感情表現を調整し、視覚的感情知覚を改善するための拡散モデルを誘導する。
さらに,CLIEA法は,対象領域に対して高品質な擬似ラベルを生成する。
大規模実験により,SOTA VERモデルであるTGCA-PVTよりも12%改善した。
プロジェクトページはhttps://yinwen2019.github.io/ucdver.comにある。
関連論文リスト
- VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Causal Discovery Inspired Unsupervised Domain Adaptation for Emotion-Cause Pair Extraction [42.26135798049004]
本稿では、教師なし領域適応設定における感情原因ペア抽出の課題に取り組む。
因果発見に触発されて、変分オートエンコーダフレームワークにおける新しい潜伏モデルを提案する。
我々のモデルは、中国のベンチマークで約11.05%、英語ベンチマークで2.45%、最強のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-18T13:01:30Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual
Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。
本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。
本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文 参考訳(メタデータ) (2020-11-25T01:31:01Z) - Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning [150.42959029611657]
ドメイン対応ビジュアルバイアス除去(DVBE)ネットワークは2つの相補的な視覚表現を構成する。
目に見えない画像に対しては、最適なセマンティック・視覚アライメントアーキテクチャを自動で検索する。
論文 参考訳(メタデータ) (2020-03-30T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。