論文の概要: Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques
- arxiv url: http://arxiv.org/abs/2201.11172v1
- Date: Wed, 26 Jan 2022 20:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:57:14.097374
- Title: Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques
- Title(参考訳): ゼロショット多言語機械翻訳を用いた音声翻訳におけるデータ不足対策
- Authors: Tu Anh Dinh, Danni Liu, Jan Niehues
- Abstract要約: ゼロショット翻訳にはいくつかの手法が提案されている。
音声翻訳データとテキスト翻訳データに基づいて訓練されたSTモデルを構築することにより,これらのアイデアが音声翻訳に適用できるかどうかを検討する。
これらの技術は制限されたSTデータを用いて数発のSTに適用され、ASRモデルから微調整されたSTモデルと比較して、直接のSTと+3.1のBLEUポイントに比べて最大+12.9のBLEUポイントの改善がなされた。
- 参考スコア(独自算出の注目度): 12.968557512440759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end speech translation (ST) has gained significant attention
as it avoids error propagation. However, the approach suffers from data
scarcity. It heavily depends on direct ST data and is less efficient in making
use of speech transcription and text translation data, which is often more
easily available. In the related field of multilingual text translation,
several techniques have been proposed for zero-shot translation. A main idea is
to increase the similarity of semantically similar sentences in different
languages. We investigate whether these ideas can be applied to speech
translation, by building ST models trained on speech transcription and text
translation data. We investigate the effects of data augmentation and auxiliary
loss function. The techniques were successfully applied to few-shot ST using
limited ST data, with improvements of up to +12.9 BLEU points compared to
direct end-to-end ST and +3.1 BLEU points compared to ST models fine-tuned from
ASR model.
- Abstract(参考訳): 近年,誤りの伝播を避けるため,エンドツーエンド音声翻訳(ST)が注目されている。
しかし、このアプローチはデータの不足に悩まされている。
直接STデータに大きく依存しており、音声の書き起こしやテキストの翻訳データの利用にはあまり効率が良くない。
関連する多言語翻訳の分野では,ゼロショット翻訳の手法がいくつか提案されている。
主なアイデアは、異なる言語における意味的に類似した文の類似性を高めることである。
音声翻訳とテキスト翻訳データに基づくstモデルを構築し,これらを音声翻訳に適用できるかどうかを検討する。
データ拡張と補助損失関数の効果について検討する。
この手法は限定的なstデータを用いて数発stに適用され、asrモデルから微調整されたstモデルと比較して最大12.9 bleu点と+3.1 bleu点に改良された。
関連論文リスト
- Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech
Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。
MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-17T16:14:30Z) - Large-Scale Streaming End-to-End Speech Translation with Neural
Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。
ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。
TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文 参考訳(メタデータ) (2022-04-11T18:18:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Zero-shot Speech Translation [0.0]
音声翻訳(英: Speech Translation、ST)とは、ある言語の音声を他の言語のテキストに変換するタスクである。
エンドツーエンドのアプローチでは、エラーの伝播を避けるために1つのシステムのみを使用するが、データ不足のため、利用は困難である。
学習中に目に見えない言語のペアを翻訳できるゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-07-13T12:00:44Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。