論文の概要: It's LeVAsa not LevioSA! Latent Encodings for Valence-Arousal Structure
Alignment
- arxiv url: http://arxiv.org/abs/2007.10058v3
- Date: Mon, 30 Nov 2020 18:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:25:51.393326
- Title: It's LeVAsa not LevioSA! Latent Encodings for Valence-Arousal Structure
Alignment
- Title(参考訳): レヴィオサではなくレヴィオサだ!
Valence-Arousal Structure Alignmentのための潜時符号化
- Authors: Surabhi S. Nath, Vishaal Udandarao, Jainendra Shukla
- Abstract要約: 本稿では、潜在空間とVA空間を整列させることにより暗黙構造を学習するVAEモデル「LeVAsa」を提案する。
以上の結果から,LeVAsaは低周波アライメントを実現し,下流のカテゴリー感情予測の改善につながることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.6513059119482154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, great strides have been made in the field of affective
computing. Several models have been developed to represent and quantify
emotions. Two popular ones include (i) categorical models which represent
emotions as discrete labels, and (ii) dimensional models which represent
emotions in a Valence-Arousal (VA) circumplex domain. However, there is no
standard for annotation mapping between the two labelling methods. We build a
novel algorithm for mapping categorical and dimensional model labels using
annotation transfer across affective facial image datasets. Further, we utilize
the transferred annotations to learn rich and interpretable data
representations using a variational autoencoder (VAE). We present "LeVAsa", a
VAE model that learns implicit structure by aligning the latent space with the
VA space. We evaluate the efficacy of LeVAsa by comparing performance with the
Vanilla VAE using quantitative and qualitative analysis on two benchmark
affective image datasets. Our results reveal that LeVAsa achieves high
latent-circumplex alignment which leads to improved downstream categorical
emotion prediction. The work also demonstrates the trade-off between degree of
alignment and quality of reconstructions.
- Abstract(参考訳): 近年は、感情コンピューティングの分野で大きな進歩を遂げている。
感情を表現し、定量化するためにいくつかのモデルが開発されている。
2つの人気がある。
(i)感情を離散ラベルとして表わす分類モデル、
(II)Valence-Arousal (VA) 領域における感情を表現する次元モデル。
しかし,2つのラベル付け手法間のアノテーションマッピングの標準は存在しない。
感情的な顔画像データセット間のアノテーション転送を用いた分類モデルラベルと次元モデルラベルをマッピングする新しいアルゴリズムを構築した。
さらに、変換されたアノテーションを用いて、変動オートエンコーダ(VAE)を用いてリッチで解釈可能なデータ表現を学習する。
本稿では、潜在空間とVA空間を整列させることにより暗黙構造を学習するVAEモデル「LeVAsa」を提案する。
本研究では,2つのベンチマークイメージデータセットの定量的および質的分析を用いて,Vanilla VAEとの比較によりLeVAsaの有効性を評価する。
以上の結果から,LeVAsaは低周波アライメントを実現し,下流のカテゴリー感情予測の改善につながることが明らかとなった。
作業はまた、アライメントの程度と再構築の質の間のトレードオフを示す。
関連論文リスト
- eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos [7.011656298079659]
短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Interpretable Sentence Representation with Variational Autoencoders and
Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。
変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。
帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文 参考訳(メタデータ) (2023-05-04T13:16:15Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Trading Information between Latents in Hierarchical Variational
Autoencoders [8.122270502556374]
変分オートエンコーダ(VAE)はもともと確率的生成モデルとして動機付けられ、ベイズ推定を近似的に行う。
$beta$-VAEsの提案はこの解釈を破り、VAEを生成モデリング以上のアプリケーションドメインに一般化する。
推論モデルの一般的なクラスを特定し、各レイヤからのコントリビューションにレートを分割し、独立に調整することができる。
論文 参考訳(メタデータ) (2023-02-09T18:56:11Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Multivariate Data Explanation by Jumping Emerging Patterns Visualization [78.6363825307044]
多変量データセットにおけるパターンの識別と視覚的解釈を支援するVAX(multiVariate dAta eXplanation)を提案する。
既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。
論文 参考訳(メタデータ) (2021-06-21T13:49:44Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - i-Mix: A Domain-Agnostic Strategy for Contrastive Representation
Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。
実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文 参考訳(メタデータ) (2020-10-17T23:32:26Z) - Depthwise Discrete Representation Learning [2.728575246952532]
離散表現の学習の最近の進歩は、言語、オーディオ、ビジョンを含むタスクにおいて、アート結果の状態を導いている。
単語、音素、形状などの潜時要因は連続ではなく離散潜時変数で表される。
ベクトル量子化変分オートエンコーダ(VQVAE)は、複数の領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2020-04-11T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。