論文の概要: What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2406.09933v1
- Date: Fri, 14 Jun 2024 11:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:05:00.609662
- Title: What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark
- Title(参考訳): データセット全体にわたるSERモデルの一般化には何が必要か? 総合ベンチマーク
- Authors: Adham Ibrahim, Shady Shehata, Ajinkya Kulkarni, Mukhtar Mohamed, Muhammad Abdul-Mageed,
- Abstract要約: 音声による感情認識(SER)は、音声ベースのアプリケーションにおける人間とコンピュータの相互作用の促進に不可欠である。
特定の感情的データセットの改善にもかかわらず、SERが現実世界の状況にまたがって一般化する能力にはまだ研究のギャップがある。
本稿では,異なる感情データセットにまたがってSERシステムを一般化するためのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 13.820963986497128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) is essential for enhancing human-computer interaction in speech-based applications. Despite improvements in specific emotional datasets, there is still a research gap in SER's capability to generalize across real-world situations. In this paper, we investigate approaches to generalize the SER system across different emotion datasets. In particular, we incorporate 11 emotional speech datasets and illustrate a comprehensive benchmark on the SER task. We also address the challenge of imbalanced data distribution using over-sampling methods when combining SER datasets for training. Furthermore, we explore various evaluation protocols for adeptness in the generalization of SER. Building on this, we explore the potential of Whisper for SER, emphasizing the importance of thorough evaluation. Our approach is designed to advance SER technology by integrating speaker-independent methods.
- Abstract(参考訳): 音声による感情認識(SER)は、音声ベースのアプリケーションにおける人間とコンピュータの相互作用の促進に不可欠である。
特定の感情的データセットの改善にもかかわらず、SERが現実世界の状況にまたがって一般化する能力にはまだ研究のギャップがある。
本稿では,異なる感情データセットにまたがってSERシステムを一般化するためのアプローチについて検討する。
特に、11の感情的音声データセットを組み込んで、SERタスクに関する包括的なベンチマークを示す。
また,SERデータセットをトレーニング用として組み合わせた場合,オーバーサンプリング手法による不均衡なデータ分散の課題にも対処する。
さらに,SERの一般化における適応性の評価プロトコルについても検討する。
これに基づいて、我々はWhisper for SERの可能性を探求し、徹底的な評価の重要性を強調した。
提案手法は、話者に依存しない手法を統合することにより、SER技術の進歩を図っている。
関連論文リスト
- ILAEDA: An Imitation Learning Based Approach for Automatic Exploratory Data Analysis [5.012314384895538]
我々は、操作を重要なものにする重要な特徴のすべてが、報酬を使って数学的に正確にキャプチャできるわけではないと論じる。
本稿では,専門家EDAセッションの模倣学習を通じて訓練されたAutoEDAモデルを提案する。
提案手法は,既存のエンドツーエンドEDA手法を最大3倍のベンチマークで上回り,高い性能と一般化を示す。
論文 参考訳(メタデータ) (2024-10-15T04:56:13Z) - Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - BIRB: A Generalization Benchmark for Information Retrieval in
Bioacoustics [7.68184437595058]
本稿では,受動的に記録されたデータセットから鳥の発声を検索する複雑なベンチマークであるBIRBを提案する。
本稿では,表現学習と最寄りのセントロイド探索を用いたタスクコレクションのベースラインシステムを提案する。
論文 参考訳(メタデータ) (2023-12-12T17:06:39Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - End-to-End Continuous Speech Emotion Recognition in Real-life Customer
Service Call Center Conversations [0.0]
本稿では,顧客サービスコールセンタ会話における連続SERのための大規模実生活データセット(CusEmo)を構築するためのアプローチを提案する。
我々は,実生活におけるコールセンター会話における感情の微妙さ,複雑さ,継続性を捉えるために,次元的感情アノテーションアプローチを採用した。
この研究は、データセットへのEnd-to-End (E2E) SERシステムの適用中に発生する課題にも対処している。
論文 参考訳(メタデータ) (2023-10-02T11:53:48Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。