論文の概要: Multilingual Contextual Adapters To Improve Custom Word Recognition In
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2307.00759v1
- Date: Mon, 3 Jul 2023 05:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:17:23.048357
- Title: Multilingual Contextual Adapters To Improve Custom Word Recognition In
Low-resource Languages
- Title(参考訳): 低リソース言語におけるカスタム単語認識改善のための多言語文脈適応
- Authors: Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati
- Abstract要約: 我々は、CTCの注意に基づくバイアスモデルを用いて、カスタムエンティティの認識を改善するコンテキスト適応について研究する。
本研究では,文脈適応器のスムーズな学習のための監視損失を提案する。
提案手法は,低リソース言語に対する未知のカスタムエンティティの検索において,F1の48%の改善を実現している。
- 参考スコア(独自算出の注目度): 3.7870350845913165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Connectionist Temporal Classification (CTC) models are popular for their
balance between speed and performance for Automatic Speech Recognition (ASR).
However, these CTC models still struggle in other areas, such as
personalization towards custom words. A recent approach explores Contextual
Adapters, wherein an attention-based biasing model for CTC is used to improve
the recognition of custom entities. While this approach works well with enough
data, we showcase that it isn't an effective strategy for low-resource
languages. In this work, we propose a supervision loss for smoother training of
the Contextual Adapters. Further, we explore a multilingual strategy to improve
performance with limited training data. Our method achieves 48% F1 improvement
in retrieving unseen custom entities for a low-resource language.
Interestingly, as a by-product of training the Contextual Adapters, we see a
5-11% Word Error Rate (WER) reduction in the performance of the base CTC model
as well.
- Abstract(参考訳): コネクショニスト時間分類(ctc)モデルは、自動音声認識(asr)の速度と性能のバランスのために人気がある。
しかし、これらのCTCモデルは、カスタムワードに対するパーソナライズなど、他の分野でも苦戦している。
最近のアプローチでは、カスタムエンティティの認識を改善するためにctcの注意に基づくバイアスモデルが使用されるコンテキストアダプタを探求している。
このアプローチは十分なデータでうまく機能するが、低リソース言語にとって効果的な戦略ではないことを示す。
本研究では,コンテクストアダプタのスムースなトレーニングのための監督損失を提案する。
さらに,限られたトレーニングデータによる性能向上のための多言語戦略についても検討する。
提案手法は,低リソース言語に対する未知のカスタムエンティティの検索において,F1の48%の改善を実現する。
興味深いことに、文脈適応器を訓練する副産物として、基本CTCモデルの性能も5-11%のワード誤り率(WER)が減少する。
関連論文リスト
- Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization [44.008094698200026]
我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
論文 参考訳(メタデータ) (2024-08-26T18:00:33Z) - InstructionCP: A fast approach to transfer Large Language Models into target language [55.2480439325792]
InsCPは命令タグをCPプロセスに統合し、新しい言語を習得する際の会話能力の喪失を防ぐ。
実験の結果,InsCPは人間のフィードバック能力から会話と強化学習を維持していることがわかった。
このアプローチでは、高品質な命令追従データを0.1億トークンしか必要とせず、それによってリソース消費が減少する。
論文 参考訳(メタデータ) (2024-05-30T15:45:13Z) - Acoustic Word Embeddings for Untranscribed Target Languages with
Continued Pretraining and Learned Pooling [28.758396218435635]
音響単語の埋め込みは、単語のような一対の単位を用いてプール関数を訓練することによって生成される。
自己教師型英語モデルからの平均プール表現は、有望な代替案として提案されたが、ターゲット言語でのそれらのパフォーマンスは、完全には競合しなかった。
両手法が単語識別における近年のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-03T16:44:21Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。