論文の概要: Selective Data Augmentation for Robust Speech Translation
- arxiv url: http://arxiv.org/abs/2304.03169v1
- Date: Wed, 22 Mar 2023 19:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 05:26:34.077817
- Title: Selective Data Augmentation for Robust Speech Translation
- Title(参考訳): ロバスト音声翻訳のための選択的データ拡張
- Authors: Rajul Acharya, Ashish Panda, Sunil Kumar Kopparapu
- Abstract要約: 英ヒンディー語(en-hi)STのe2eアーキテクチャを提案する。
We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text。
この結果から, MTデータのブルート力増強に比べて, ST(BLEU) スコアが良好であることが示唆された。
- 参考スコア(独自算出の注目度): 17.56859840101276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech translation (ST) systems translate speech in one language to text in
another language. End-to-end ST systems (e2e-ST) have gained popularity over
cascade systems because of their enhanced performance due to reduced latency
and computational cost. Though resource intensive, e2e-ST systems have the
inherent ability to retain para and non-linguistic characteristics of the
speech unlike cascade systems. In this paper, we propose to use an e2e
architecture for English-Hindi (en-hi) ST. We use two imperfect machine
translation (MT) services to translate Libri-trans en text into hi text. While
each service gives MT data individually to generate parallel ST data, we
propose a data augmentation strategy of noisy MT data to aid robust ST. The
main contribution of this paper is the proposal of a data augmentation
strategy. We show that this results in better ST (BLEU score) compared to brute
force augmentation of MT data. We observed an absolute improvement of 1.59 BLEU
score with our approach.
- Abstract(参考訳): 音声翻訳(st)システムは、ある言語でスピーチを他の言語でテキストに変換する。
終端STシステム(e2e-ST)は、待ち時間と計算コストの削減により性能が向上したため、カスケードシステムで人気を博している。
資源集約的なe2e-stシステムは、カスケードシステムとは異なり、パラ言語的および非言語的特徴を保持できる固有の能力を持っている。
本稿では,英語ヒンディー語(en-hi)STにおけるe2eアーキテクチャを提案する。2つの不完全な機械翻訳(MT)サービスを用いて,Libri-transのテキストをハイテキストに変換する。
本稿では,各サービスが並列STデータを生成するためにMTデータを個別に提供しながら,頑健なSTを支援するため,ノイズの多いMTデータのデータ拡張戦略を提案する。
その結果, MTデータの鈍力増強よりもST(BLEUスコア)がよいことがわかった。
我々はアプローチで1.59 bleuスコアの絶対的な改善を観察した。
関連論文リスト
- Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか?
DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。
低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T03:48:16Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Improving Speech-to-Speech Translation Through Unlabeled Text [39.28273721043411]
直接音声音声変換(S2ST)は、翻訳パラダイムにおいて最も難しい問題の一つである。
そこで本稿では,S2STデータを生成するために,異なる言語からの大量の未ラベルテキストを効果的に活用する方法を提案する。
論文 参考訳(メタデータ) (2022-10-26T06:52:19Z) - Generating Synthetic Speech from SpokenVocab for Speech Translation [18.525896864903416]
エンドツーエンドの音声翻訳システムの訓練には十分な大規模データが必要である。
1つの実用的な解決策は、機械翻訳データ(MT)をテキスト音声(TTS)システムを介してSTデータに変換することである。
本稿では,MTデータをSTデータにオンザフライで変換する,シンプルでスケーラブルで効果的なデータ拡張手法であるSpkenVocabを提案する。
論文 参考訳(メタデータ) (2022-10-15T03:07:44Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques [12.968557512440759]
ゼロショット翻訳にはいくつかの手法が提案されている。
音声翻訳データとテキスト翻訳データに基づいて訓練されたSTモデルを構築することにより,これらのアイデアが音声翻訳に適用できるかどうかを検討する。
これらの技術は制限されたSTデータを用いて数発のSTに適用され、ASRモデルから微調整されたSTモデルと比較して、直接のSTと+3.1のBLEUポイントに比べて最大+12.9のBLEUポイントの改善がなされた。
論文 参考訳(メタデータ) (2022-01-26T20:20:59Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。