論文の概要: Accented Speech Recognition under the Indian context
- arxiv url: http://arxiv.org/abs/2209.03787v2
- Date: Sun, 11 Sep 2022 11:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 10:34:50.083417
- Title: Accented Speech Recognition under the Indian context
- Title(参考訳): インド文脈におけるアクセント付き音声認識
- Authors: Ankit Grover
- Abstract要約: アクセントは文化、感情、行動などを特定する上で不可欠な部分を形成します。
人々はアクセントのために異なる方法でお互いを知覚することが多い。
アクセントそのものは、ステータス、プライド、その他の感情的な情報を伝達するものであり、音声自体を通して捉えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accent forms an integral part of identifying cultures, emotions, behavior'ss,
etc. People often perceive each other in a different manner due to their
accent. The accent itself can be a conveyor of status, pride, and other
emotional information which can be captured through Speech itself. Accent
itself can be defined as: "the way in which people in a particular area,
country, or social group pronounce words" or "a special emphasis given to a
syllable in a word, word in a sentence, or note in a set of musical notes".
Accented Speech Recognition is one the most important problems in the domain of
Speech Recognition. Speech recognition is an interdisciplinary sub-field of
Computer Science and Linguistics research where the main aim is to develop
technologies which enable conversion of speech into text. The speech can be of
any form such as read speech or spontaneous speech, conversational speech. As
all instances of language utterances are present speech is very diverse and
exhibits many traits of variability. This diversity stems from the
environmental conditions, variabilities from speaker to speaker, channel noise,
differences in Speech production due to disabilities, presence of disfluencies.
Speech therefore is indeed a rich source of information waiting to be
exploited.
- Abstract(参考訳): アクセントは文化や感情、行動などを特定する上で不可欠な部分を形成する。
人々はしばしば、アクセントによって異なる方法でお互いを知覚する。
アクセントそのものは、ステータス、プライド、その他の感情情報のコンベヤーであり、スピーチ自体を通じて捉えることができる。
アクセントそのものは、「特定の地域、国、社会集団の人々が単語を発音する方法」あるいは「音節、文中の単語、音符の集合における音節に特別に強調される方法」と定義できる。
アクセント付き音声認識は音声認識の分野で最も重要な問題の一つである。
音声認識はコンピュータ科学と言語学の研究の学際的なサブフィールドであり、主な目的は音声をテキストに変換する技術を開発することである。
音声は、読み上げ音声や自発音声、会話音声などのあらゆる形態でもよい。
言語発話の全ての例が現在存在する音声は非常に多様であり、多彩な特徴を持っている。
この多様性は、環境条件、話者から話者への変動、チャネルノイズ、障害による音声生成の違い、不均一性などに起因する。
したがって、スピーチは実際に悪用されるのを待っている豊富な情報ソースである。
関連論文リスト
- Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - Deep Speech Based End-to-End Automated Speech Recognition (ASR) for
Indian-English Accents [0.0]
インド英語アクセントのエンドツーエンド音声認識システムの開発にトランスファーラーニングアプローチを用いた。
インド英語アクセントのインデックスTSデータは、事前訓練されたディープ音声モデルの転写学習と微調整に使用される。
論文 参考訳(メタデータ) (2022-04-03T03:11:21Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - Analysis of French Phonetic Idiosyncrasies for Accent Recognition [0.8602553195689513]
発音の違い、アクセントと音声のイントネーションは、音声認識の最も一般的な問題の1つである。
従来の機械学習技術と畳み込みニューラルネットワークを使い、古典的手法ではこの問題を解決するのに十分な効率が得られていないことを示す。
本稿では,フランス語のアクセントに焦点をあてるとともに,そのスペクトルに対するフランス語の慣用音の影響を理解することによって,その限界を識別する。
論文 参考訳(メタデータ) (2021-10-18T10:50:50Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。