論文の概要: Improving Speech Recognition Accuracy Using Custom Language Models with the Vosk Toolkit
- arxiv url: http://arxiv.org/abs/2503.21025v1
- Date: Wed, 26 Mar 2025 22:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:08.445938
- Title: Improving Speech Recognition Accuracy Using Custom Language Models with the Vosk Toolkit
- Title(参考訳): Vosk Toolkitを用いたカスタム言語モデルによる音声認識精度の向上
- Authors: Aniket Abhishek Soni,
- Abstract要約: 本研究は,オープンソースのVosk Toolkitを用いたカスタム言語モデルを用いて,各種設定における音声とテキストの精度を向上する方法について検討する。
Pythonベースの転写パイプラインは入力音声を処理し、VoskのKaldiRecognizerを使って音声認識を行い、出力をDOCXファイルにエクスポートするために開発された。
結果は、特に専門用語、アクセントの変化、背景雑音を含むドメイン固有のシナリオにおいて、カスタムモデルが単語エラー率を減少させることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Although speech recognition algorithms have developed quickly in recent years, achieving high transcription accuracy across diverse audio formats and acoustic environments remains a major challenge. This work explores how incorporating custom language models with the open-source Vosk Toolkit can improve speech-to-text accuracy in varied settings. Unlike many conventional systems limited to specific audio types, this approach supports multiple audio formats such as WAV, MP3, FLAC, and OGG by using Python modules for preprocessing and format conversion. A Python-based transcription pipeline was developed to process input audio, perform speech recognition using Vosk's KaldiRecognizer, and export the output to a DOCX file. Results showed that custom models reduced word error rates, especially in domain-specific scenarios involving technical terminology, varied accents, or background noise. This work presents a cost-effective, offline solution for high-accuracy transcription and opens up future opportunities for automation and real-time applications.
- Abstract(参考訳): 近年,音声認識アルゴリズムは急速に発展してきたが,様々な音声形式や音響環境において高い転写精度を実現することは大きな課題である。
本研究では、オープンソースのVosk Toolkitにカスタム言語モデルを組み込むことで、さまざまな設定における音声とテキストの精度を向上させる方法について検討する。
特定のオーディオタイプに限定された多くの従来のシステムとは異なり、このアプローチはプリプロセッサやフォーマット変換にPythonモジュールを使用することで、WAV、MP3、FLAC、OGGなどの複数のオーディオフォーマットをサポートする。
Pythonベースの転写パイプラインは入力音声を処理し、VoskのKaldiRecognizerを使って音声認識を行い、出力をDOCXファイルにエクスポートするために開発された。
結果は、特に専門用語、アクセントの変化、背景雑音を含むドメイン固有のシナリオにおいて、カスタムモデルが単語エラー率を減少させることを示した。
この研究は、高精度な書き起こしのためのコスト効率のよいオフラインソリューションを示し、自動化とリアルタイムアプリケーションのための将来の機会を開放する。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Prak: An automatic phonetic alignment tool for Czech [0.0]
無料のオープンソースツールはチェコ語のテキストから電話シーケンスを生成し、音声で時間調整する。
チェコ語発音生成器は、言語の論理をキャプチャする単純なルールベースのブロックで構成されている。
論文 参考訳(メタデータ) (2023-04-17T16:51:24Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。