Fugu-MT 論文翻訳(概要): Developing Acoustic Models for Automatic Speech Recognition in Swedish

論文の概要: Developing Acoustic Models for Automatic Speech Recognition in Swedish

arxiv url: http://arxiv.org/abs/2404.16547v1
Date: Thu, 25 Apr 2024 12:03:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 13:49:56.910478
Title: Developing Acoustic Models for Automatic Speech Recognition in Swedish
Title（参考訳）: スウェーデンにおける音声認識のための音響モデルの開発
Authors: Giampiero Salvi,
Abstract要約: 本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
参考スコア（独自算出の注目度）: 6.5458610824731664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.
Abstract（参考訳）: 本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。この研究の目的はスウェーデン語話者のための音響モデルを構築することである。これは隠れマルコフモデルを使用し、パラメータをトレーニングするためにSpeechDatデータベースを使用する。音素レベルでの音響モデリングが実施され、単純化されたタスク(デジタルおよび自然数認識)がモデル評価のために検討されているにもかかわらず、一般の音声認識応用が可能となった。文脈依存モデルと2種類の文脈依存モデルを含む、さまざまな種類の電話モデルがテストされている。さらに、システムパラメータの一部をチューニングするために、Bigram言語モデルで多くの実験が行われた。また,性別,年齢,方言の異なる話者サブセットに対するシステム性能についても検討した。結果は、これまでの類似した研究と比較され、顕著な改善が見られた。

関連論文リスト

Training Articulatory Inversion Models for Interspeaker Consistency [34.667379055539236]
AAIは音声から調音への逆写像をモデル化しようとする。 AAIの最近の研究は、単一話者データセットに自己監視学習(SSL)モデルを適用することを提案した。単一話者データと複数話者データに基づいて訓練されたSSL適応モデルが、英語とロシア語の話者識別に一貫性のある音声目標を生成するかどうかを検討する。
論文参考訳（メタデータ） (2025-05-26T21:19:20Z)
Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文参考訳（メタデータ） (2024-12-16T15:45:10Z)
Late fusion ensembles for speech recognition on diverse input audio representations [0.0]
音声音声の多種多様な表現について検討し、E-Branchformerモデルの後期融合アンサンブルの性能に与える影響について検討する。我々は、同等のテクニックでトレーニングされた最先端のモデルに対して、1%から14%$の改善が依然として達成可能であることを示す。
論文参考訳（メタデータ） (2024-12-01T10:19:24Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。 SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文参考訳（メタデータ） (2024-09-11T17:34:52Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文参考訳（メタデータ） (2023-10-16T19:50:01Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文参考訳（メタデータ） (2023-09-27T17:21:13Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。 We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-02-24T17:15:39Z)
A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文参考訳（メタデータ） (2022-06-22T12:00:50Z)
Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。 Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文参考訳（メタデータ） (2021-04-23T16:05:20Z)
Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2020-05-31T13:34:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。