論文の概要: Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings
- arxiv url: http://arxiv.org/abs/2106.06160v1
- Date: Fri, 11 Jun 2021 04:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 02:36:59.544119
- Title: Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings
- Title(参考訳): 超低リソース環境におけるスパース転写の発話項検出法
- Authors: \'Eric Le Ferrand, Steven Bird, Laurent Besacier
- Abstract要約: 2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
- 参考スコア(独自算出の注目度): 20.410074074340447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the efficiency of two very different spoken term detection
approaches for transcription when the available data is insufficient to train a
robust ASR system. This work is grounded in very low-resource language
documentation scenario where only few minutes of recording have been
transcribed for a given language so far.Experiments on two oral languages show
that a pretrained universal phone recognizer, fine-tuned with only a few
minutes of target language speech, can be used for spoken term detection with a
better overall performance than a dynamic time warping approach. In addition,
we show that representing phoneme recognition ambiguity in a graph structure
can further boost the recall while maintaining high precision in the low
resource spoken term detection task.
- Abstract(参考訳): そこで本研究では,強健なASRシステムの訓練に利用可能なデータが不十分な場合に,2つの全く異なる音節検出手法の有効性について検討する。
2つの口頭言語での実験では、訓練済みの普遍的な電話認識器が、わずか数分間のターゲット言語音声で微調整され、動的時間ワープアプローチよりも全体的なパフォーマンスで音声語検出に使用できることが示されている。
さらに,グラフ構造における音素認識の曖昧さの表現は,低リソース音声語検出タスクにおいて高い精度を維持しながらリコールをさらに促進できることを示す。
関連論文リスト
- Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-23T22:50:32Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。