論文の概要: Unsupervised low-rank representations for speech emotion recognition
- arxiv url: http://arxiv.org/abs/2104.07072v1
- Date: Wed, 14 Apr 2021 18:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:52:57.707970
- Title: Unsupervised low-rank representations for speech emotion recognition
- Title(参考訳): 音声感情認識のための教師なし低ランク表現
- Authors: Georgios Paraskevopoulos, Efthymios Tzinis, Nikolaos Ellinas,
Theodoros Giannakopoulos and Alexandros Potamianos
- Abstract要約: 音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
- 参考スコア(独自算出の注目度): 78.38221758430244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the use of linear and non-linear dimensionality reduction
algorithms for extracting low-rank feature representations for speech emotion
recognition. Two feature sets are used, one based on low-level descriptors and
their aggregations (IS10) and one modeling recurrence dynamics of speech (RQA),
as well as their fusion. We report speech emotion recognition (SER) results for
learned representations on two databases using different classification
methods. Classification with low-dimensional representations yields performance
improvement in a variety of settings. This indicates that dimensionality
reduction is an effective way to combat the curse of dimensionality for SER.
Visualization of features in two dimensions provides insight into
discriminatory abilities of reduced feature sets.
- Abstract(参考訳): 音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
低レベルディスクリプタとアグリゲーション(IS10)をベースとした2つの特徴セットと,その融合に加えてRQAの再現ダイナミクスをモデル化する1つの特徴セットが使用される。
異なる分類法を用いて2つのデータベース上で学習した表現に対する音声感情認識(SER)結果を報告する。
低次元表現の分類は、様々な設定で性能改善をもたらす。
これは、次元の縮小はサーの次元の呪いと戦う効果的な方法であることを示している。
2次元の特徴の可視化は、縮小された特徴集合の識別能力に関する洞察を与える。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Training speech emotion classifier without categorical annotations [1.5609988622100528]
本研究の目的は, これら2つの表現の関係について検討することである。
提案手法は、与えられた音声の次元表現における連続値のベクトルを予測するために訓練された回帰器モデルを含む。
このモデルの出力は、マッピングアルゴリズムを用いて感情カテゴリーとして解釈できる。
論文 参考訳(メタデータ) (2022-10-14T08:47:41Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme
Learning Machine with a New Weighting Scheme and Spectro-Temporal Features
Along with Classical Feature Selection and A New Quantum-Inspired Dimension
Reduction Method [3.8073142980733]
音声信号に基づく音声感情認識システム(SER)を提案する。
このシステムは,特徴抽出,特徴選択,最後に特徴分類という3つの段階から構成される。
従来の重み付け法よりも効率的なクラス不均衡に対処する新しい重み付け法も提案されている。
論文 参考訳(メタデータ) (2021-11-13T11:09:38Z) - Dimensionality Reduction for Sentiment Classification: Evolving for the
Most Prominent and Separable Features [4.156782836736784]
感情分類において、膨大なテキストデータ、その膨大な次元、および固有のノイズは、機械学習分類器が高レベルで複雑な抽象化を抽出することが極めて困難である。
既存の次元削減技術では、コンポーネントの数を手動で設定する必要があるため、最も顕著な特徴が失われる。
我々は,2次元化技術であるSentiment Term Presence Count(SentiTPC)とSentiment Term Presence Ratio(SentiTPR)からなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:46:52Z) - Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning [150.42959029611657]
ドメイン対応ビジュアルバイアス除去(DVBE)ネットワークは2つの相補的な視覚表現を構成する。
目に見えない画像に対しては、最適なセマンティック・視覚アライメントアーキテクチャを自動で検索する。
論文 参考訳(メタデータ) (2020-03-30T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。