論文の概要: Aggression in Hindi and English Speech: Acoustic Correlates and
Automatic Identification
- arxiv url: http://arxiv.org/abs/2204.02814v1
- Date: Wed, 6 Apr 2022 13:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:54:09.374228
- Title: Aggression in Hindi and English Speech: Acoustic Correlates and
Automatic Identification
- Title(参考訳): ヒンディー語・英語音声における攻撃性:音響相関と自動同定
- Authors: Ritesh Kumar, Atul Kr. Ojha, Bornini Lahiri, Chingrimnng Lungleng
- Abstract要約: この研究は、わずか10時間以上の政治談話のコーパスに基づいている。
我々は、英語とヒンディー語における攻撃を識別する2つの自動分類システムを開発した。
- 参考スコア(独自算出の注目度): 0.802904964931021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, we will present the results of an acoustic analysis of
political discourse in Hindi and discuss some of the conventionalised acoustic
features of aggressive speech regularly employed by the speakers of Hindi and
English. The study is based on a corpus of slightly over 10 hours of political
discourse and includes debates on news channel and political speeches. Using
this study, we develop two automatic classification systems for identifying
aggression in English and Hindi speech, based solely on an acoustic model. The
Hindi classifier, trained using 50 hours of annotated speech, and English
classifier, trained using 40 hours of annotated speech, achieve a respectable
accuracy of over 73% and 66% respectively. In this paper, we discuss the
development of this annotated dataset, the experiments for developing the
classifier and discuss the errors that it makes.
- Abstract(参考訳): 本稿では,ヒンディー語における政治談話の音響分析の結果を述べるとともに,ヒンディー語と英語の話者が日常的に用いているアグレッシブ・スピーチの音響的特徴について論じる。
この研究は、わずか10時間以上の政治談話のコーパスに基づいており、ニュースチャンネルや政治演説に関する議論を含んでいる。
本研究では,アコースティックモデルのみに基づいて,英語とヒンディー語における攻撃を識別する2つの自動分類システムを開発した。
ヒンディー語分類器は50時間のアノテート音声で訓練され、英語の分類器は40時間のアノテート音声で訓練され、それぞれ73%と66%の正確さを達成した。
本稿では,この注釈付きデータセットの開発,分類器の開発実験,およびその誤りについて論じる。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Prosody Labelled Dataset for Hindi using Semi-Automated Approach [0.19733467999508417]
本研究は,ヒンディー語のための半自動ラベル付き韻律データベースの開発を目的とする。
ヒンディー語では韻律ラベリングの標準は存在しない。
ピッチアクセント、中間句境界、アクセント句境界の訓練されたモデルの精度は、それぞれ73.40%、93.20%、および43%である。
論文 参考訳(メタデータ) (2021-12-11T13:11:36Z) - Prediction of Listener Perception of Argumentative Speech in a
Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features [24.14001104126045]
議論的発話のクラウドソースデータセットにおいてTEDトークスタイルの感情評価を予測することを目的としている。
本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することにより,これらのカテゴリを予測するための分類タスクに有効なアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-13T15:07:13Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Towards Modelling Coherence in Spoken Discourse [48.80477600384429]
話し言葉におけるコヒーレンスは、音声の韻律的および音響的パターンに依存している。
音声に基づくコヒーレンスモデルを用いて音声対話におけるコヒーレンスをモデル化する。
論文 参考訳(メタデータ) (2020-12-31T20:18:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - The Perceptimatic English Benchmark for Speech Perception Models [11.646802225841153]
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
論文 参考訳(メタデータ) (2020-05-07T12:35:44Z) - Speaker Recognition in Bengali Language from Nonlinear Features [0.0]
ベンガル語音声認識と話者識別の研究は文献にはほとんどない。
本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。
Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。
論文 参考訳(メタデータ) (2020-04-15T22:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。