Fugu-MT 論文翻訳(概要): LSSED: a large-scale dataset and benchmark for speech emotion recognition

論文の概要: LSSED: a large-scale dataset and benchmark for speech emotion recognition

arxiv url: http://arxiv.org/abs/2102.01754v1
Date: Sat, 30 Jan 2021 11:15:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 04:05:10.338820
Title: LSSED: a large-scale dataset and benchmark for speech emotion recognition
Title（参考訳）: LSSED:音声認識のための大規模データセットとベンチマーク
Authors: Weiquan Fan, Xiangmin Xu, Xiaofen Xing, Weidong Chen, Dongyan Huang
Abstract要約: 本研究では,820人の被験者から収集した実世界分布をシミュレートする大規模音声感情データセットを提案する。また,LSSEDに基づく事前学習モデルもリリースし,音声感情認識の発達を促進する。
参考スコア（独自算出の注目度）: 16.52343833538097
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech emotion recognition is a vital contributor to the next generation of human-computer interaction (HCI). However, current existing small-scale databases have limited the development of related research. In this paper, we present LSSED, a challenging large-scale english speech emotion dataset, which has data collected from 820 subjects to simulate real-world distribution. In addition, we release some pre-trained models based on LSSED, which can not only promote the development of speech emotion recognition, but can also be transferred to related downstream tasks such as mental health analysis where data is extremely difficult to collect. Finally, our experiments show the necessity of large-scale datasets and the effectiveness of pre-trained models. The dateset will be released on https://github.com/tobefans/LSSED.
Abstract（参考訳）: 音声の感情認識は、次世代のヒューマン・コンピュータ・インタラクション(HCI)に重要な貢献をする。しかし、現在の小規模データベースは、関連する研究の発展を制限している。本稿では,820人の被験者から収集したデータを実世界の分布をシミュレートする大規模音声感情データセットであるLSSEDを提案する。さらに,LSSEDに基づく事前学習モデルもいくつかリリースし,音声感情認識の発達を促進するだけでなく,データを収集することが極めて困難であるメンタルヘルス分析など,関連する下流タスクにも移行できることを示した。最後に,本実験では大規模データセットの必要性と事前学習モデルの有効性を示す。 datesetはhttps://github.com/tobefans/lssedでリリースされる。

関連論文リスト

DexVLG: Dexterous Vision-Language-Grasp Model at Scale [59.5613919093295]
ヒトのような器用な手のための大型モデルを用いた機能的握りの研究はほとんどない。 DexVLGは、言語命令に整合したDexterousグリップポーズ予測のための大型ビジョン言語-Graspモデルである。シミュレーションでは、174,000個のオブジェクトのセマンティックな部分にマッピングされた1億1千万個のデキスタスなグリップポーズを、詳細な部分レベルのキャプションと組み合わせて生成する。
論文参考訳（メタデータ） (2025-07-03T16:05:25Z)
Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T13:10:46Z)
The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning [3.649801602551928]
我々は、異種録音からの学習を表現するために、神経科学にインスパイアされた自己教師対象のセットをニューラルネットワークとともに開発する。その結果、これらの目的によって学習された表現は、データとともにスケールし、主題、データセット、タスクをまたいで一般化し、同等の自己監督的アプローチを上回ります。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文参考訳（メタデータ） (2024-06-03T13:58:04Z)
IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文参考訳（メタデータ） (2024-02-01T22:37:33Z)
Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文参考訳（メタデータ） (2023-11-10T18:38:14Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。本稿ではDDの最近の進歩とその応用について概説する。
論文参考訳（メタデータ） (2023-01-17T17:03:28Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。