論文の概要: Cross-lingual and Multilingual Spoken Term Detection for Low-Resource
Indian Languages
- arxiv url: http://arxiv.org/abs/2011.06226v1
- Date: Thu, 12 Nov 2020 06:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:58:27.224947
- Title: Cross-lingual and Multilingual Spoken Term Detection for Low-Resource
Indian Languages
- Title(参考訳): 低資源インド語における言語間・多言語音声語検出
- Authors: Sanket Shah, Satarupa Guha, Simran Khanuja, Sunayana Sitaram
- Abstract要約: Spoken Term Detectionは、音声中の単語やフレーズを検索するタスクである。
我々は、10の低リソースのインド言語における語彙スポンケン項検出に、最先端のヒンディー語、タミル語、テルグ語 ASR システムを相互に用いている。
言語固有の音声データを必要とせずに、ゼロショット方式でSTDを相互に実行可能であることを示す。
- 参考スコア(独自算出の注目度): 13.42517182688574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Term Detection (STD) is the task of searching for words or phrases
within audio, given either text or spoken input as a query. In this work, we
use state-of-the-art Hindi, Tamil and Telugu ASR systems cross-lingually for
lexical Spoken Term Detection in ten low-resource Indian languages. Since no
publicly available dataset exists for Spoken Term Detection in these languages,
we create a new dataset using a publicly available TTS dataset. We report a
standard metric for STD, Mean Term Weighted Value (MTWV) and show that ASR
systems built in languages that are phonetically similar to the target
languages have higher accuracy, however, it is also possible to get high MTWV
scores for dissimilar languages by using a relaxed phone matching algorithm. We
propose a technique to bootstrap the Grapheme-to-Phoneme (g2p) mapping between
all the languages under consideration using publicly available resources. Gains
are obtained when we combine the output of multiple ASR systems and when we use
language-specific Language Models. We show that it is possible to perform STD
cross-lingually in a zero-shot manner without the need for any
language-specific speech data. We plan to make the STD dataset available for
other researchers interested in cross-lingual STD.
- Abstract(参考訳): 音声単語検出(英: spoken term detection、std)は、音声中の単語やフレーズを検索するタスクである。
本研究は,10の低資源インド言語における語彙空間検出のために,最先端のヒンディー語,タミル語,テルグ語 ASR システムを用いた。
これらの言語で話し言葉検出のための公開データセットは存在しないので、公開利用可能なttsデータセットを使用して新しいデータセットを作成する。
対象言語と音声的に類似する言語で構築された ASR システムは,STD の標準指標である平均項重み付け値 (MTWV) を報告し,精度が高いことを示すが,緩和された電話マッチングアルゴリズムを用いて,異種言語に対して高い MTWV スコアを得ることもできる。
本稿では,利用可能なリソースを用いて,すべての言語間のgrapheme-to-phoneme(g2p)マッピングをブートストラップする手法を提案する。
複数のasrシステムの出力を結合し、言語固有の言語モデルを使用すると得られる。
言語固有の音声データを必要とせずに、ゼロショット方式でSTDを相互に実行可能であることを示す。
STDデータセットを言語横断STDに関心のある他の研究者にも提供する予定だ。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。