論文の概要: Enabling Interactive Transcription in an Indigenous Community
- arxiv url: http://arxiv.org/abs/2011.06198v1
- Date: Thu, 12 Nov 2020 04:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:58:37.539775
- Title: Enabling Interactive Transcription in an Indigenous Community
- Title(参考訳): 先住民コミュニティにおける対話型転写の実現
- Authors: \'Eric Le Ferrand, Steven Bird, Laurent Besacier
- Abstract要約: 本稿では,音声語検出とHuman-in-the-loopを組み合わせた書き起こしワークフローを提案する。
転写の初期段階において、堅牢なASRシステムのトレーニングに利用可能なデータが不十分である場合には、少数の孤立した単語の転写を利用することができる。
- 参考スコア(独自算出の注目度): 23.53585157238112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel transcription workflow which combines spoken term
detection and human-in-the-loop, together with a pilot experiment. This work is
grounded in an almost zero-resource scenario where only a few terms have so far
been identified, involving two endangered languages. We show that in the early
stages of transcription, when the available data is insufficient to train a
robust ASR system, it is possible to take advantage of the transcription of a
small number of isolated words in order to bootstrap the transcription of a
speech collection.
- Abstract(参考訳): 本稿では,音声語検出とHuman-in-the-loopを組み合わせた新しい転写ワークフローとパイロット実験を提案する。
この研究は、2つの絶滅危惧言語を含むいくつかの用語しか特定されていないほぼゼロリソースのシナリオに基づいている。
本研究は, 音声認識の初期段階において, 頑健なASRシステムを訓練するのに利用可能なデータが不足している場合には, 音声収集の転写をブートストラップするために, 少数の孤立した単語の転写を利用することができることを示す。
関連論文リスト
- Automated Tone Transcription and Clustering with Tone2Vec [31.562430412564577]
Tone2Vecという音調転写のためのピッチベース類似性表現を導入する。
方言クラスタリングと分散の実験により、Tone2Vecはきめ細かなトーン変化を効果的に捉えていることが示された。
これらのアルゴリズムは、オープンソースで使いやすいパッケージであるToneLabに統合されている。
論文 参考訳(メタデータ) (2024-10-03T09:18:54Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - End-to-End Rich Transcription-Style Automatic Speech Recognition with
Semi-Supervised Learning [28.516240952627076]
本稿では,RT-ASRシステムを構築するための半教師付き学習手法を提案する。
私たちの学習における重要なプロセスは、一般的な転写スタイルのデータセットを擬似リッチな転写スタイルのデータセットに変換することです。
自発性ASR課題に対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-07-07T12:52:49Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。