論文の概要: Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective
- arxiv url: http://arxiv.org/abs/2206.12759v1
- Date: Sun, 26 Jun 2022 01:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 16:05:23.917225
- Title: Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective
- Title(参考訳): 地理的プロキシ設定における低リソースアクセント分類--法科学と社会音学の立場から
- Authors: Qingcheng Zeng, Dading Chong, Peilin Zhou, Jie Yang
- Abstract要約: アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年の深層学習法とトランスフォーマーを用いた事前学習モデルは,両領域で高い性能を達成している。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせについて検討した。
- 参考スコア(独自算出の注目度): 8.002498051045228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accented speech recognition and accent classification are relatively
under-explored research areas in speech technology. Recently, deep
learning-based methods and Transformer-based pretrained models have achieved
superb performances in both areas. However, most accent classification tasks
focused on classifying different kinds of English accents and little attention
was paid to geographically-proximate accent classification, especially under a
low-resource setting where forensic speech science tasks usually encounter. In
this paper, we explored three main accent modelling methods combined with two
different classifiers based on 105 speaker recordings retrieved from five urban
varieties in Northern England. Although speech representations generated from
pretrained models generally have better performances in downstream
classification, traditional methods like Mel Frequency Cepstral Coefficients
(MFCCs) and formant measurements are equipped with specific strengths. These
results suggest that in forensic phonetics scenario where data are relatively
scarce, a simple modelling method and classifier could be competitive with
state-of-the-art pretrained speech models as feature extractors, which could
enhance a sooner estimation for the accent information in practices. Besides,
our findings also cross-validated a new methodology in quantifying
sociophonetic changes.
- Abstract(参考訳): アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年,Deep Learning-based methodとTransformer-based pretrained modelは両領域で最高性能を達成している。
しかし,ほとんどのアクセント分類タスクは,様々な英語アクセントの分類に重点を置いており,地理的に近似的なアクセント分類にはほとんど注意が払われなかった。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせを検討した。
事前訓練されたモデルから生成された音声表現は、一般的に下流の分類においてより良い性能を持つが、Mel Frequency Cepstral Coefficients (MFCC) やホルマント測定のような伝統的な手法は特定の強度を備えている。
以上の結果から,データ量が比較的少ない法医学的音声学のシナリオでは,簡単なモデリング手法と分類器が特徴抽出器として最先端の事前訓練音声モデルと競合する可能性が示唆された。
また,社会音素の変化を定量化するための新たな手法についても検証した。
関連論文リスト
- Knowledge Distillation for Real-Time Classification of Early Media in Voice Communications [0.13124513975412253]
本稿では,勾配木に基づく低リソース要求に対する新しいアプローチを提案する。
本稿では,知識蒸留とクラス集約技術を活用して,音声通話における早期メディアの分類を促進することを明らかにする。
論文 参考訳(メタデータ) (2024-10-28T19:32:17Z) - GE2E-AC: Generalized End-to-End Loss Training for Accent Classification [13.266765406714942]
入力音声のアクセント埋め込みやAEを抽出するためにモデルを訓練するGE2E-ACを提案する。
提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。
論文 参考訳(メタデータ) (2024-07-19T04:44:16Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - MetaAudio: A Few-Shot Audio Classification Benchmark [2.294014185517203]
この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。
7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
論文 参考訳(メタデータ) (2022-04-05T11:33:44Z) - Multi-Modal Pre-Training for Automated Speech Recognition [11.451227239633553]
本研究では, マスキング言語モデルに基づく自己教師型学習手法を導入し, 発話環境のグローバルなマルチモーダル符号化を演算する。
その結果、Librispeech上では、ベースラインメソッドを最大7%上回る結果が得られた。
論文 参考訳(メタデータ) (2021-10-12T17:07:25Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。