論文の概要: Training speech emotion classifier without categorical annotations
- arxiv url: http://arxiv.org/abs/2210.07642v1
- Date: Fri, 14 Oct 2022 08:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:09:02.145690
- Title: Training speech emotion classifier without categorical annotations
- Title(参考訳): カテゴリーアノテーションのない音声感情分類器の訓練
- Authors: Meysam Shamsi, Marie Tahon
- Abstract要約: 本研究の目的は, これら2つの表現の関係について検討することである。
提案手法は、与えられた音声の次元表現における連続値のベクトルを予測するために訓練された回帰器モデルを含む。
このモデルの出力は、マッピングアルゴリズムを用いて感情カテゴリーとして解釈できる。
- 参考スコア(独自算出の注目度): 1.5609988622100528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are two paradigms of emotion representation, categorical labeling and
dimensional description in continuous space. Therefore, the emotion recognition
task can be treated as a classification or regression. The main aim of this
study is to investigate the relation between these two representations and
propose a classification pipeline that uses only dimensional annotation. The
proposed approach contains a regressor model which is trained to predict a
vector of continuous values in dimensional representation for given speech
audio. The output of this model can be interpreted as an emotional category
using a mapping algorithm. We investigated the performances of a combination of
three feature extractors, three neural network architectures, and three mapping
algorithms on two different corpora. Our study shows the advantages and
limitations of the classification via regression approach.
- Abstract(参考訳): 感情表現には2つのパラダイム、カテゴリーラベリングと連続空間における次元記述がある。
したがって、感情認識タスクを分類または回帰として扱うことができる。
本研究の目的は,これら2つの表現の関係を調べ,次元アノテーションのみを用いた分類パイプラインを提案することである。
提案手法は、与えられた音声の次元表現における連続値のベクトルを予測するために訓練された回帰器モデルを含む。
このモデルの出力はマッピングアルゴリズムを用いて感情カテゴリーとして解釈することができる。
本研究では,3つの特徴抽出器,3つのニューラルネットワークアーキテクチャ,および2つの異なるコーパス上の3つのマッピングアルゴリズムの組み合わせの性能について検討した。
本研究は回帰アプローチによる分類の利点と限界を示す。
関連論文リスト
- Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme
Learning Machine with a New Weighting Scheme and Spectro-Temporal Features
Along with Classical Feature Selection and A New Quantum-Inspired Dimension
Reduction Method [3.8073142980733]
音声信号に基づく音声感情認識システム(SER)を提案する。
このシステムは,特徴抽出,特徴選択,最後に特徴分類という3つの段階から構成される。
従来の重み付け法よりも効率的なクラス不均衡に対処する新しい重み付け法も提案されている。
論文 参考訳(メタデータ) (2021-11-13T11:09:38Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Metric Learning vs Classification for Disentangled Music Representation
Learning [36.74680586571013]
本稿では,メートル法学習と分類,ゆがみの関係を包括的に解明する単一の表現学習フレームワークを提案する。
分類に基づくモデルは、訓練時間、類似性検索、自動タグ付けに一般的に有利であるのに対し、深度検定学習は三重項予測により良い性能を示す。
論文 参考訳(メタデータ) (2020-08-09T13:53:12Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。