論文の概要: Self-Supervised Representations Improve End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2006.12124v2
- Date: Sun, 25 Oct 2020 03:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:41:10.721823
- Title: Self-Supervised Representations Improve End-to-End Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳を改善する自己教師付き表現
- Authors: Anne Wu, Changhan Wang, Juan Pino, Jiatao Gu
- Abstract要約: 自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
- 参考スコア(独自算出の注目度): 57.641761472372814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech-to-text translation can provide a simpler and smaller
system but is facing the challenge of data scarcity. Pre-training methods can
leverage unlabeled data and have been shown to be effective on data-scarce
settings. In this work, we explore whether self-supervised pre-trained speech
representations can benefit the speech translation task in both high- and
low-resource settings, whether they can transfer well to other languages, and
whether they can be effectively combined with other common methods that help
improve low-resource end-to-end speech translation such as using a pre-trained
high-resource speech recognition system. We demonstrate that self-supervised
pre-trained features can consistently improve the translation performance, and
cross-lingual transfer allows to extend to a variety of languages without or
with little tuning.
- Abstract(参考訳): エンドツーエンドの音声テキスト翻訳は、よりシンプルで小さなシステムを提供するが、データ不足の課題に直面している。
事前学習手法はラベルのないデータを活用することができ、データスカース設定に有効であることが示されている。
本研究では,自己教師付き事前学習音声表現が,高域と低域の両方で音声翻訳作業に有効であるか,他言語への翻訳が良好であるか,事前学習した高域音声認識システムなどの低域のエンドツーエンド音声翻訳の改善に役立つ他の共通手法と効果的に組み合わせられるかを検討する。
自己教師付き事前学習機能により、翻訳性能が一貫して向上し、言語間変換により、チューニングをほとんど行わずに様々な言語に拡張できることを示す。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。