論文の概要: Sample, Translate, Recombine: Leveraging Audio Alignments for Data
Augmentation in End-to-end Speech Translation
- arxiv url: http://arxiv.org/abs/2203.08757v1
- Date: Wed, 16 Mar 2022 17:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 16:58:40.089860
- Title: Sample, Translate, Recombine: Leveraging Audio Alignments for Data
Augmentation in End-to-end Speech Translation
- Title(参考訳): sample, translate, recombine: エンドツーエンド音声翻訳におけるデータ拡張のための音声アライメントの活用
- Authors: Tsz Kin Lam, Shigehiko Schamoni, Stefan Riezler
- Abstract要約: 本稿では,音声アライメント,言語特性,翻訳を利用したデータ拡張手法を提案する。
提案手法は,CoVoST 2上の5つの言語対とEuroparl-ST上の2つの言語対に対して,最大0.9と1.1のBLEU点を一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 14.839931533868176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end speech translation relies on data that pair source-language speech
inputs with corresponding translations into a target language. Such data are
notoriously scarce, making synthetic data augmentation by back-translation or
knowledge distillation a necessary ingredient of end-to-end training. In this
paper, we present a novel approach to data augmentation that leverages audio
alignments, linguistic properties, and translation. First, we augment a
transcription by sampling from a suffix memory that stores text and audio data.
Second, we translate the augmented transcript. Finally, we recombine
concatenated audio segments and the generated translation. Besides training an
MT-system, we only use basic off-the-shelf components without fine-tuning.
While having similar resource demands as knowledge distillation, adding our
method delivers consistent improvements of up to 0.9 and 1.1 BLEU points on
five language pairs on CoVoST 2 and on two language pairs on Europarl-ST,
respectively.
- Abstract(参考訳): エンドツーエンドの音声翻訳は、対象言語への翻訳とソース言語音声入力を組み合わせるデータに依存している。
このようなデータは、バックトランスレーションや知識蒸留による合成データの増大を、エンドツーエンドのトレーニングに必要な要素にしていることで知られている。
本稿では,音声アライメント,言語特性,翻訳を活用した新しいデータ拡張手法を提案する。
まず、テキストと音声データを格納する接尾辞メモリからサンプリングすることで、書き起こしを増強する。
次に、拡張転写を翻訳します。
最後に、連結した音声セグメントと生成された翻訳を再結合する。
MTシステムのトレーニング以外には、細かいチューニングをすることなく、基本的なオフザシェルフコンポーネントのみを使用します。
知識蒸留と同様の資源要求を持つ一方で,covost 2 の 5 つの言語対と europarl-st の 2 つの言語対において,最大 0.9 と 1.1 の bleu 点の一貫した改善を提供する。
関連論文リスト
- Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - End-to-End Speech Translation of Arabic to English Broadcast News [2.375764121997739]
音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに翻訳する作業である。
本稿では,最初のアラビア語から英語への翻訳システムであるブロードキャストニュースの開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-12-11T11:35:46Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。