論文の概要: Pushing the Limits of Zero-shot End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2402.10422v1
- Date: Fri, 16 Feb 2024 03:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:42:38.468665
- Title: Pushing the Limits of Zero-shot End-to-End Speech Translation
- Title(参考訳): ゼロショット音声翻訳の限界を押し上げる
- Authors: Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R.
Costa-juss\`a
- Abstract要約: データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
- 参考スコア(独自算出の注目度): 2.25589440614477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity and the modality gap between the speech and text modalities are
two major obstacles of end-to-end Speech Translation (ST) systems, thus
hindering their performance. Prior work has attempted to mitigate these
challenges by leveraging external MT data and optimizing distance metrics that
bring closer the speech-text representations. However, achieving competitive
results typically requires some ST data. For this reason, we introduce
ZeroSwot, a method for zero-shot ST that bridges the modality gap without any
paired ST data. Leveraging a novel CTC compression and Optimal Transport, we
train a speech encoder using only ASR data, to align with the representation
space of a massively multilingual MT model. The speech encoder seamlessly
integrates with the MT model at inference, enabling direct translation from
speech to text, across all languages supported by the MT model. Our experiments
show that we can effectively close the modality gap without ST data, while our
results on MuST-C and CoVoST demonstrate our method's superiority over not only
previous zero-shot models, but also supervised ones, achieving state-of-the-art
results.
- Abstract(参考訳): データ不足と音声とテキストのモダリティギャップは、エンドツーエンド音声翻訳(st)システムの2つの大きな障害であり、パフォーマンスを阻害している。
従来の研究は、外部MTデータを活用することによるこれらの課題の軽減と、音声テキスト表現を近づける距離メトリクスの最適化を試みてきた。
しかし、競争結果を達成するには、通常いくつかのSTデータが必要である。
このため、ゼロショットSTの手法であるZeroSwotを導入し、ペアのSTデータを使わずにモダリティギャップをブリッジする。
新たなCTC圧縮と最適トランスポートを利用して、ASRデータのみを用いて音声エンコーダを訓練し、多言語MTモデルの表現空間と整合する。
音声エンコーダは推論時にmtモデルとシームレスに統合され、mtモデルがサポートするすべての言語に対して、音声からテキストへの直接翻訳を可能にする。
実験の結果,STデータを使わずに効率よくモダリティギャップを塞ぐことができることがわかったが,MuST-CとCoVoSTは従来のゼロショットモデルだけでなく,教師付きモデルよりも手法の優位性を実証し,最先端の結果を得ることができた。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか?
DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。
低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T03:48:16Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech
Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。
MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-17T16:14:30Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Zero-shot Speech Translation [0.0]
音声翻訳(英: Speech Translation、ST)とは、ある言語の音声を他の言語のテキストに変換するタスクである。
エンドツーエンドのアプローチでは、エラーの伝播を避けるために1つのシステムのみを使用するが、データ不足のため、利用は困難である。
学習中に目に見えない言語のペアを翻訳できるゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-07-13T12:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。