Fugu-MT 論文翻訳(概要): Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

論文の概要: Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

arxiv url: http://arxiv.org/abs/2410.17028v1
Date: Tue, 22 Oct 2024 13:52:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.038449
Title: Can a Machine Distinguish High and Low Amount of Social Creak in Speech?
Title（参考訳）: 機械は音声における社会的弱みを区別できるか?
Authors: Anne-Maria Laukkanen, Sudarsana Reddy Kadiri, Shrikanth Narayanan, Paavo Alku,
Abstract要約: 社会的亀裂の研究は、社会言語学や生態学の研究でますます人気が高まっている。フィンランド語話者90名による連続音声サンプルのクラック量は知覚的に評価された。この研究で報告された分類体系は、将来のMLに基づく社会亀裂研究のベースラインとみなすことができる。
参考スコア（独自算出の注目度）: 35.87692357686657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objectives: ncreased prevalence of social creak particularly among female speakers has been reported in several studies. The study of social creak has been previously conducted by combining perceptual evaluation of speech with conventional acoustical parameters such as the harmonic-to-noise ratio and cepstral peak prominence. In the current study, machine learning (ML) was used to automatically distinguish speech of low amount of social creak from speech of high amount of social creak. Methods: The amount of creak in continuous speech samples produced in Finnish by 90 female speakers was first perceptually assessed by two voice specialists. Based on their assessments, the speech samples were divided into two categories (low $vs$. high amount of creak). Using the speech signals and their creak labels, seven different ML models were trained. Three spectral representations were used as feature for each model. Results: The results show that the best performance (accuracy of 71.1\%) was obtained by the following two systems: an Adaboost classifier using the mel-spectrogram feature and a decision tree classifier using the mel-frequency cepstral coefficient feature. Conclusions: The study of social creak is becoming increasingly popular in sociolinguistic and vocological research. The conventional human perceptual assessment of the amount of creak is laborious and therefore ML technology could be used to assist researchers studying social creak. The classification systems reported in this study could be considered as baselines in future ML-based studies on social creak.
Abstract（参考訳）: 目的:特に女性話者における社会的亀裂の有病率はいくつかの研究で報告されている。音声の知覚的評価とハーモニック・ツー・ノイズ比やケプストラムピークの卓越といった従来の音響パラメータを組み合わせることで,社会的亀裂の研究をこれまで行ってきた。本研究は,機械学習を用いて,低量の社会的亀裂の音声と高量の社会的亀裂の音声とを自動的に区別する。方法: フィンランド語話者90名による連続音声サンプルのクラック量は, 2人の音声専門家によって初めて知覚的に評価された。評価結果から, 音声サンプルは2つのカテゴリーに分けた(低$vs$. 高いクラック量)。音声信号とそのクラックラベルを用いて、7つの異なるMLモデルを訓練した。 3つのスペクトル表現を各モデルの特徴として用いた。その結果,メルスペクトル特徴を用いたアダブースト分類器と,メル周波数ケプストラム係数特徴を用いた決定木分類器の2つのシステムにより,最高の性能(71.1\%の精度)が得られた。結論:社会的亀裂の研究は、社会言語学と社会学の研究でますます人気が高まっている。従来の人間の知覚によるクレーク量の評価は困難であり、そのため、ML技術は社会クレークを研究する研究者を支援するために使用できる。この研究で報告された分類体系は、将来のMLに基づく社会亀裂研究のベースラインとみなすことができる。

関連論文リスト

SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment [0.846600473226587]
本研究では,音声認識モデル(LALM)とヒトの音声理解における話者特性について比較した。 LALM(Qwen2-AudioとUltravox 0.5)処理パターンをヒト脳波応答と比較した。
論文参考訳（メタデータ） (2025-03-25T12:10:47Z)
Fine-Tuning Whisper for Inclusive Prosodic Stress Analysis [2.818750423530918]
本研究では,OpenAIのWhisper large-v2 ASRモデルを用いて,音声におけるフレーズ,語彙,コントラスト的ストレスを認識する。 66人のネイティブ英語話者のデータセットを用いて、ストレスパターンを一般化し、ニューロタイプとジェンダーで話者を分類するモデルの能力を評価する。
論文参考訳（メタデータ） (2025-03-03T16:48:31Z)
Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。 1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection [0.7223352886780369]
本研究は,音声認識のための自動学習システムにおける音声トーンと配信の重要性を強調した。これは、人間の行動が音声信号の知覚と分類に与える影響を解明することにより、音声信号解析の幅広い分野に寄与する。
論文参考訳（メタデータ） (2024-06-28T18:55:07Z)
A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文参考訳（メタデータ） (2023-03-14T16:08:45Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-04-04T17:36:01Z)
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文参考訳（メタデータ） (2021-10-13T05:30:50Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
Comparing Supervised Models And Learned Speech Representations For Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文参考訳（メタデータ） (2021-07-08T17:24:25Z)
Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文参考訳（メタデータ） (2021-04-29T01:08:53Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。