論文の概要: WACO: Word-Aligned Contrastive Learning for Speech Translation
- arxiv url: http://arxiv.org/abs/2212.09359v3
- Date: Fri, 7 Jul 2023 04:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:56:12.743779
- Title: WACO: Word-Aligned Contrastive Learning for Speech Translation
- Title(参考訳): WACO:音声翻訳のための単語対応コントラスト学習
- Authors: Siqi Ouyang, Rong Ye, Lei Li
- Abstract要約: 音声翻訳(E2E)は、ソース音声を直接ターゲットテキストに変換することを目的としている。
既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。
極めて低音源の音声からテキストへの翻訳をシンプルかつ効果的に行うためのワードアラインド・コントラスト学習(WACO)を提案する。
- 参考スコア(独自算出の注目度): 11.67083845641806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Speech Translation (E2E ST) aims to directly translate source
speech into target text. Existing ST methods perform poorly when only extremely
small speech-text data are available for training. We observe that an ST
model's performance closely correlates with its embedding similarity between
speech and source transcript. In this paper, we propose Word-Aligned
COntrastive learning (WACO), a simple and effective method for extremely
low-resource speech-to-text translation. Our key idea is bridging word-level
representations for both speech and text modalities via contrastive learning.
We evaluate WACO and other methods on the MuST-C dataset, a widely used ST
benchmark, and on a low-resource direction Maltese-English from IWSLT 2023. Our
experiments demonstrate that WACO outperforms the best baseline by 9+ BLEU
points with only 1-hour parallel ST data. Code is available at
https://github.com/owaski/WACO.
- Abstract(参考訳): エンドツーエンド音声翻訳(E2E ST)は、ソース音声を直接ターゲットテキストに変換することを目的としている。
既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。
その結果,stモデルの性能は,音声と音源の書き起こしの類似性と密接に関連していることがわかった。
本稿では,低リソース音声からテキストへの翻訳をシンプルかつ効果的に行うための単語適応型協調学習(WACO)を提案する。
私たちの重要なアイデアは、コントラスト学習を通じて、音声とテキストのモダリティの単語レベルの表現を橋渡しすることです。
提案手法は,stベンチマークとして広く用いられている must-c データセットや iwslt 2023 の低リソース方向maltese-english を用いて,waco などの手法を評価した。
実験の結果,WACOは1時間並列STデータのみで,9以上のBLEUポイントで最高のベースラインを達成できた。
コードはhttps://github.com/owaski/wacoで入手できる。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか?
DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。
低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T03:48:16Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Cross-modal Contrastive Learning for Speech Translation [36.63604508886932]
ConSTは、エンドツーエンドの音声からテキストへの翻訳のための、モーダルなコントラスト学習手法である。
実験の結果、提案されたConSTは、以前の方法よりも一貫して優れていた。
その学習表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。
論文 参考訳(メタデータ) (2022-05-05T05:14:01Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。