論文の概要: Strategies for improving low resource speech to text translation relying
on pre-trained ASR models
- arxiv url: http://arxiv.org/abs/2306.00208v1
- Date: Wed, 31 May 2023 21:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:07:37.613466
- Title: Strategies for improving low resource speech to text translation relying
on pre-trained ASR models
- Title(参考訳): 事前学習したasrモデルに基づくテキスト翻訳における低資源音声の改善戦略
- Authors: Santosh Kesiraju, Marek Sarvas, Tomas Pavlicek, Cecile Macaire,
Alejandro Ciuba
- Abstract要約: 本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
- 参考スコア(独自算出の注目度): 59.90106959717875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents techniques and findings for improving the performance of
low-resource speech to text translation (ST). We conducted experiments on both
simulated and real-low resource setups, on language pairs English - Portuguese,
and Tamasheq - French respectively. Using the encoder-decoder framework for ST,
our results show that a multilingual automatic speech recognition system acts
as a good initialization under low-resource scenarios. Furthermore, using the
CTC as an additional objective for translation during training and decoding
helps to reorder the internal representations and improves the final
translation. Through our experiments, we try to identify various factors
(initializations, objectives, and hyper-parameters) that contribute the most
for improvements in low-resource setups. With only 300 hours of pre-training
data, our model achieved 7.3 BLEU score on Tamasheq - French data,
outperforming prior published works from IWSLT 2022 by 1.6 points.
- Abstract(参考訳): 本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見を提案する。
英語とポルトガル語, タマシェク語, フランス語の2つの言語対について, シミュレーションおよび実環境下で実験を行った。
stのためのエンコーダ・デコーダ・フレームワークを用いて,多言語自動音声認識システムが低リソースシナリオにおいて適切な初期化として機能することを示す。
さらに、CTCをトレーニングとデコードの間の翻訳のための追加の目的として使用することで、内部表現の順序を変更し、最終的な翻訳を改善することができる。
実験を通じて、低リソースのセットアップの改善に最も貢献する様々な要因(初期化、目的、ハイパーパラメータ)を特定しようとする。
トレーニング前の300時間で,Tamasheq - フランスのデータに対して7.3BLEUスコアを達成し,IWSLT 2022の先行公開データよりも1.6ポイント向上した。
関連論文リスト
- Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages [0.4499833362998489]
Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
論文 参考訳(メタデータ) (2024-09-06T17:15:17Z) - Embedded Translations for Low-resource Automated Glossing [11.964276799347642]
我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
グロース出力を生成する文字レベルデコーダを提案する。
本結果は,システムの性能向上における翻訳情報の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-03-13T02:23:13Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets [1.859931123372708]
本稿では,低リソース言語を対象としたベンチマークデータセットの自動生成手法を提案する。
第2に,フィリピンの資源不足を緩和するため,ELECTRA技術に基づく事前学習型トランスフォーマを新たに作成する。
第3に,低データ領域で動作する場合の真の性能に光を当てるために,転送学習手法の分析を行う。
論文 参考訳(メタデータ) (2020-10-22T10:09:10Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。