Fugu-MT 論文翻訳(概要): WACO: Word-Aligned Contrastive Learning for Speech Translation

論文の概要: WACO: Word-Aligned Contrastive Learning for Speech Translation

arxiv url: http://arxiv.org/abs/2212.09359v3
Date: Fri, 7 Jul 2023 04:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 15:56:12.743779
Title: WACO: Word-Aligned Contrastive Learning for Speech Translation
Title（参考訳）: WACO:音声翻訳のための単語対応コントラスト学習
Authors: Siqi Ouyang, Rong Ye, Lei Li
Abstract要約: 音声翻訳(E2E)は、ソース音声を直接ターゲットテキストに変換することを目的としている。既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。極めて低音源の音声からテキストへの翻訳をシンプルかつ効果的に行うためのワードアラインド・コントラスト学習(WACO)を提案する。
参考スコア（独自算出の注目度）: 11.67083845641806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end Speech Translation (E2E ST) aims to directly translate source speech into target text. Existing ST methods perform poorly when only extremely small speech-text data are available for training. We observe that an ST model's performance closely correlates with its embedding similarity between speech and source transcript. In this paper, we propose Word-Aligned COntrastive learning (WACO), a simple and effective method for extremely low-resource speech-to-text translation. Our key idea is bridging word-level representations for both speech and text modalities via contrastive learning. We evaluate WACO and other methods on the MuST-C dataset, a widely used ST benchmark, and on a low-resource direction Maltese-English from IWSLT 2023. Our experiments demonstrate that WACO outperforms the best baseline by 9+ BLEU points with only 1-hour parallel ST data. Code is available at https://github.com/owaski/WACO.
Abstract（参考訳）: エンドツーエンド音声翻訳(E2E ST)は、ソース音声を直接ターゲットテキストに変換することを目的としている。既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。その結果,stモデルの性能は,音声と音源の書き起こしの類似性と密接に関連していることがわかった。本稿では,低リソース音声からテキストへの翻訳をシンプルかつ効果的に行うための単語適応型協調学習(WACO)を提案する。私たちの重要なアイデアは、コントラスト学習を通じて、音声とテキストのモダリティの単語レベルの表現を橋渡しすることです。提案手法は,stベンチマークとして広く用いられている must-c データセットや iwslt 2023 の低リソース方向maltese-english を用いて,waco などの手法を評価した。実験の結果,WACOは1時間並列STデータのみで,9以上のBLEUポイントで最高のベースラインを達成できた。コードはhttps://github.com/owaski/wacoで入手できる。

関連論文リスト

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。 LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。本研究では,本研究における音声教育の予定について述べる。
論文参考訳（メタデータ） (2025-06-12T02:24:44Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文参考訳（メタデータ） (2024-08-14T10:44:51Z)
DUB: Discrete Unit Back-translation for Speech Translation [32.74997208667928]
我々は2つの質問に答えるために、離散単位逆変換(DUB)を提案する: 直接STにおける連続的な特徴よりも、離散単位による音声を表現する方がよいか? DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。
論文参考訳（メタデータ） (2023-05-19T03:48:16Z)
BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文参考訳（メタデータ） (2022-12-16T14:00:26Z)
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文参考訳（メタデータ） (2022-10-18T03:06:47Z)
Cross-modal Contrastive Learning for Speech Translation [36.63604508886932]
ConSTは、エンドツーエンドの音声からテキストへの翻訳のための、モーダルなコントラスト学習手法である。実験の結果、提案されたConSTは、以前の方法よりも一貫して優れていた。その学習表現は、モーダル音声テキスト検索の精度を4%から88%に向上させる。
論文参考訳（メタデータ） (2022-05-05T05:14:01Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。本手法は3つの主流データセットで検証する。
論文参考訳（メタデータ） (2020-09-21T10:10:45Z)
"Listen, Understand and Translate": Triple Supervision Decouples End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。既存の方法は並列コーパスの量によって制限される。並列STコーパスで信号を完全に活用するシステムを構築した。
論文参考訳（メタデータ） (2020-09-21T09:19:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。