論文の概要: Cascaded Models With Cyclic Feedback For Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2010.11153v2
- Date: Thu, 11 Feb 2021 16:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:58:44.279558
- Title: Cascaded Models With Cyclic Feedback For Direct Speech Translation
- Title(参考訳): 直接音声翻訳のための周期的フィードバックを持つカスケードモデル
- Authors: Tsz Kin Lam, Shigehiko Schamoni, Stefan Riezler
- Abstract要約: 本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
- 参考スコア(独自算出の注目度): 14.839931533868176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct speech translation describes a scenario where only speech inputs and
corresponding translations are available. Such data are notoriously limited. We
present a technique that allows cascades of automatic speech recognition (ASR)
and machine translation (MT) to exploit in-domain direct speech translation
data in addition to out-of-domain MT and ASR data. After pre-training MT and
ASR, we use a feedback cycle where the downstream performance of the MT system
is used as a signal to improve the ASR system by self-training, and the MT
component is fine-tuned on multiple ASR outputs, making it more tolerant
towards spelling variations. A comparison to end-to-end speech translation
using components of identical architecture and the same data shows gains of up
to 3.8 BLEU points on LibriVoxDeEn and up to 5.1 BLEU points on CoVoST for
German-to-English speech translation.
- Abstract(参考訳): 直接音声翻訳は、音声入力と対応する翻訳のみが利用できるシナリオを記述する。
このようなデータは、非常に限られている。
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードで,ドメイン外MTとASRデータに加えて,ドメイン内直接音声翻訳データを利用する手法を提案する。
mtとasrを事前トレーニングした後、mtシステムの下流性能を信号として、自己学習によるasrシステムを改善するためのフィードバックサイクルを使用し、複数のasr出力に対してmtコンポーネントを微調整し、綴りのバリエーションに耐性を持たせる。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、CoVoSTでは最大5.1 BLEU点が得られた。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation [29.76274107159478]
非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
論文 参考訳(メタデータ) (2024-05-22T01:10:39Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Large-Scale Streaming End-to-End Speech Translation with Neural
Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。
ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。
TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文 参考訳(メタデータ) (2022-04-11T18:18:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - The IWSLT 2021 BUT Speech Translation Systems [2.4373900721120285]
BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
論文 参考訳(メタデータ) (2021-07-13T15:11:18Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。