論文の概要: WACO: Word-Aligned Contrastive Learning for Speech Translation
- arxiv url: http://arxiv.org/abs/2212.09359v1
- Date: Mon, 19 Dec 2022 10:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:24:35.259025
- Title: WACO: Word-Aligned Contrastive Learning for Speech Translation
- Title(参考訳): WACO:音声翻訳のための単語対応コントラスト学習
- Authors: Siqi Ouyang, Rong Ye, Lei Li
- Abstract要約: 本稿では, 音声からテキストへ翻訳する新しい手法として, 単語アラインド・コントラスト学習(WACO)を提案する。
実験では, WACOは1時間並列データのみを用いて0.7-8.5 BLEUポイントで最高のベースライン法より優れていた。
- 参考スコア(独自算出の注目度): 11.67083845641806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Speech Translation (E2E ST) aims to translate source speech into
target translation without generating the intermediate transcript. However,
existing approaches for E2E ST degrade considerably when only limited ST data
are available. We observe that an ST model's performance strongly correlates
with its embedding similarity from speech and transcript. In this paper, we
propose Word-Aligned COntrastive learning (WACO), a novel method for few-shot
speech-to-text translation. Our key idea is bridging word-level representations
for both modalities via contrastive learning. We evaluate WACO and other
methods on the MuST-C dataset, a widely used ST benchmark. Our experiments
demonstrate that WACO outperforms the best baseline methods by 0.7-8.5 BLEU
points with only 1-hour parallel data. Code is available at
https://anonymous.4open.science/r/WACO .
- Abstract(参考訳): エンドツーエンド音声翻訳(e2e st)は、中間転写を発生させることなく、ソース音声をターゲット翻訳に翻訳することを目的としている。
しかし、既存のE2E STのアプローチは、限られたSTデータしか利用できない場合に大幅に低下する。
また,STモデルの性能は,音声やテキストからの埋め込み類似性と強く相関している。
本稿では,音声からテキストへ翻訳する新しい手法である単語適応型言語学習(WACO)を提案する。
私たちの重要なアイデアは、コントラスト学習を通じて両方のモダリティの単語レベルの表現を橋渡しすることです。
我々は、広く使われているSTベンチマークである MuST-C データセット上で、WACO や他の手法を評価する。
実験により,wacoは1時間並列データで0.7-8.5 bleuポイントの最高ベースラインメソッドを上回った。
コードはhttps://anonymous.4open.science/r/wacoで入手できる。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか?
DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。
低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T03:48:16Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Cross-modal Contrastive Learning for Speech Translation [36.63604508886932]
ConSTは、エンドツーエンドの音声からテキストへの翻訳のための、モーダルなコントラスト学習手法である。
実験の結果、提案されたConSTは、以前の方法よりも一貫して優れていた。
その学習表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。
論文 参考訳(メタデータ) (2022-05-05T05:14:01Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。