論文の概要: Analysis of French Phonetic Idiosyncrasies for Accent Recognition
- arxiv url: http://arxiv.org/abs/2110.09179v1
- Date: Mon, 18 Oct 2021 10:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:42:04.114842
- Title: Analysis of French Phonetic Idiosyncrasies for Accent Recognition
- Title(参考訳): アクセント認識のためのフランス語音声韻律の解析
- Authors: Pierre Berjon, Avishek Nag, and Soumyabrata Dev
- Abstract要約: 発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition systems have made tremendous progress since the last few
decades. They have developed significantly in identifying the speech of the
speaker. However, there is a scope of improvement in speech recognition systems
in identifying the nuances and accents of a speaker. It is known that any
specific natural language may possess at least one accent. Despite the
identical word phonemic composition, if it is pronounced in different accents,
we will have sound waves, which are different from each other. Differences in
pronunciation, in accent and intonation of speech in general, create one of the
most common problems of speech recognition. If there are a lot of accents in
language we should create the acoustic model for each separately. We carry out
a systematic analysis of the problem in the accurate classification of accents.
We use traditional machine learning techniques and convolutional neural
networks, and show that the classical techniques are not sufficiently efficient
to solve this problem. Using spectrograms of speech signals, we propose a
multi-class classification framework for accent recognition. In this paper, we
focus our attention on the French accent. We also identify its limitation by
understanding the impact of French idiosyncrasies on its spectrograms.
- Abstract(参考訳): 音声認識システムはここ数十年で飛躍的な進歩を遂げた。
彼らは話者の発話を識別するために大きく発展してきた。
しかし,話者のニュアンスやアクセントを識別するためには,音声認識システムの改善の範囲がある。
特定の自然言語が少なくとも1つのアクセントを持つことは知られている。
同じ単語の音声構成にもかかわらず、異なるアクセントで発音される場合、音波は互いに異なる。
アクセントやイントネーションにおける発音の違いは、音声認識の最も一般的な問題の一つである。
言語に多くのアクセントがある場合、それぞれのアコースティックモデルを別々に作成する必要があります。
アクセントの正確な分類において,問題を体系的に解析する。
従来の機械学習手法と畳み込みニューラルネットワークを用いて,従来の手法ではこの問題を十分に解決できないことを示す。
音声信号のスペクトログラムを用いて,アクセント認識のための多クラス分類フレームワークを提案する。
本稿では,フランス語アクセントに注目した。
また,フランスの慣用句がスペクトルに与える影響を理解することによって,その限界を同定する。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Voice-preserving Zero-shot Multiple Accent Conversion [14.218374374305421]
アクセント変換システムは、話者のアクセントを変更するが、その話者の音声アイデンティティを保持する。
我々は,他の音響特性を維持しつつ,アクセント依存的特徴をアンタングル化するために,対角学習を用いる。
我々のモデルは、ターゲットのアクセントに近づき、元の話者のように聞こえる音声を生成する。
論文 参考訳(メタデータ) (2022-11-23T19:51:16Z) - Accented Speech Recognition under the Indian context [0.0]
アクセントは文化、感情、行動などを特定する上で不可欠な部分を形成します。
人々はアクセントのために異なる方法でお互いを知覚することが多い。
アクセントそのものは、ステータス、プライド、その他の感情的な情報を伝達するものであり、音声自体を通して捉えることができる。
論文 参考訳(メタデータ) (2022-09-08T12:59:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Deep Discriminative Feature Learning for Accent Recognition [14.024346215923972]
我々は、畳み込み型リカレントニューラルネットワークをフロントエンドエンコーダとして採用し、レカレントニューラルネットワークを用いて局所的特徴を統合し、発話レベルのアクセント表現を行う。
本稿では,2020年のアクセント認識チャレンジにおいて,識別学習手法を用いたネットワークがアクセント分類におけるベースラインシステムよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T00:46:47Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。