論文の概要: User-friendly automatic transcription of low-resource languages:
Plugging ESPnet into Elpis
- arxiv url: http://arxiv.org/abs/2101.03027v2
- Date: Mon, 22 Feb 2021 07:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:35:26.317856
- Title: User-friendly automatic transcription of low-resource languages:
Plugging ESPnet into Elpis
- Title(参考訳): 低リソース言語のユーザフレンドリな自動転写:ESPnetをElpisに挿入する
- Authors: Oliver Adams, Benjamin Galliot (LACITO), Guillaume Wisniewski (LLF
UMR7110), Nicholas Lambourne, Ben Foley, Rahasya Sanders-Dwyer, Janet Wiles,
Alexis Michaud (LACITO), S\'everine Guillaume (LACITO), Laurent Besacier
(LIG), Christopher Cox, Katya Aplonova (LLACAN), Guillaume Jacques (CRLAO),
Nathan Hill
- Abstract要約: 本稿では,音声認識ツールキット ESPnet の Elpis への統合の進展について報告する。
この作業の目的は,ユーザフレンドリーなグラフィカルインターフェースを通じて,エンドツーエンドの音声認識モデルを言語作業者に提供することだ。
- 参考スコア(独自算出の注目度): 5.401760599361618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on progress integrating the speech recognition toolkit
ESPnet into Elpis, a web front-end originally designed to provide access to the
Kaldi automatic speech recognition toolkit. The goal of this work is to make
end-to-end speech recognition models available to language workers via a
user-friendly graphical interface. Encouraging results are reported on (i)
development of an ESPnet recipe for use in Elpis, with preliminary results on
data sets previously used for training acoustic models with the Persephone
toolkit along with a new data set that had not previously been used in speech
recognition, and (ii) incorporating ESPnet into Elpis along with UI
enhancements and a CUDA-supported Dockerfile.
- Abstract(参考訳): 本稿では,Kaldi 自動音声認識ツールキットへのアクセスを目的とした Web フロントエンドである Elpis に,音声認識ツールキット ESPnet の統合の進展について報告する。
この研究の目的は、ユーザフレンドリーなグラフィカルインタフェースを通じて、言語労働者にエンドツーエンドの音声認識モデルを提供することである。
i)エルピスで使用するESPnetレシピの開発について報告し、Persephoneツールキットでアコースティックモデルをトレーニングするためのデータセットと、これまで音声認識に使用されていなかった新しいデータセット、(ii)エルピスにESPnetを組み込んだUI拡張とCUDAをサポートするDockerfileについて予備的な結果を得た。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文 参考訳(メタデータ) (2023-05-18T14:45:09Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。