論文の概要: A Persian ASR-based SER: Modification of Sharif Emotional Speech
Database and Investigation of Persian Text Corpora
- arxiv url: http://arxiv.org/abs/2211.09956v1
- Date: Fri, 18 Nov 2022 10:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:46:37.500930
- Title: A Persian ASR-based SER: Modification of Sharif Emotional Speech
Database and Investigation of Persian Text Corpora
- Title(参考訳): ペルシア語ASRに基づくSER:シャリフ感情音声データベースの修正とペルシア語テキストコーパスの検討
- Authors: Ali Yazdani and Yasser Shekofteh
- Abstract要約: 音声感情認識(英: Speech Emotion Recognition, SER)は、人間にとって、状況や他者との対話の仕方を理解する上で欠かせない方法の一つである。
本稿では,シャリーフ感情音声データベース(ShEMO)の誤りをペルシア語データベースとして,自動音声認識(ASR)システムを用いて修正した。
また,ASR出力の言語的特徴とディープラーニングモデルを用いたペルシア語/Farsi ASRベースのSERシステムも導入した。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Emotion Recognition (SER) is one of the essential perceptual methods
of humans in understanding the situation and how to interact with others,
therefore, in recent years, it has been tried to add the ability to recognize
emotions to human-machine communication systems. Since the SER process relies
on labeled data, databases are essential for it. Incomplete, low-quality or
defective data may lead to inaccurate predictions. In this paper, we fixed the
inconsistencies in Sharif Emotional Speech Database (ShEMO), as a Persian
database, by using an Automatic Speech Recognition (ASR) system and
investigating the effect of Farsi language models obtained from accessible
Persian text corpora. We also introduced a Persian/Farsi ASR-based SER system
that uses linguistic features of the ASR outputs and Deep Learning-based
models.
- Abstract(参考訳): 音声感情認識(ser)は、状況と他者とのインタラクションを理解する上で、人間にとって不可欠な知覚方法の一つであり、近年では、感情を人間と機械のコミュニケーションシステムに認識する機能を追加する試みがなされている。
serプロセスはラベル付きデータに依存しているので、データベースは必須です。
不完全、低品質、または欠陥のあるデータは不正確な予測につながる可能性がある。
本稿では,自動音声認識 (asr) システムを用いてペルシア語データベースであるsharif emotional speech database (shemo) の不整合を修正し,アクセス可能なペルシア語テキストコーパスから得られたfarsi言語モデルの効果を調査した。
また,ASR出力の言語的特徴とディープラーニングモデルを用いたペルシア語/Farsi ASRベースのSERシステムも導入した。
関連論文リスト
- ASR and Emotional Speech: A Word-Level Investigation of the Mutual
Impact of Speech and Emotion Recognition [12.437708240244756]
本研究では、感情コーパス上でのASR性能を分析し、感情音声におけるASR(Automatic Speech Recognition)の効果を分析する。
単語誤り率の増大を考慮したテキストベースの音声感情認識を行い,ASRがSERに与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-25T13:56:09Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Language technology practitioners as language managers: arbitrating data
bias and predictive bias in ASR [0.0]
我々は、言語政策のレンズを使用して、業界におけるASRシステムのトレーニングとテストの現在の実践が、これらの体系的なエラーの違いをもたらすデータバイアスにどのように結びつくかを分析する。
我々は,言語資源の再フレーミングを,市場だけでなく,言論コミュニティの有意義な協力のもとに設計すべき(公的な)基盤として提案する。
論文 参考訳(メタデータ) (2022-02-25T10:37:52Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。