論文の概要: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation
- arxiv url: http://arxiv.org/abs/2109.07368v1
- Date: Wed, 15 Sep 2021 15:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:56:36.755130
- Title: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation
- Title(参考訳): unist: ストリーミングおよび非ストリーミング音声翻訳のための統一エンド・ツー・エンドモデル
- Authors: Qianqian Dong, Yaoming Zhu, Mingxuan Wang, Lei Li
- Abstract要約: 我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 12.63410397982031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a unified end-to-end frame-work for both streaming and
non-streamingspeech translation. While the training recipes for non-streaming
speech translation have been mature, the recipes for streaming
speechtranslation are yet to be built. In this work, wefocus on developing a
unified model (UniST) which supports streaming and non-streaming ST from the
perspective of fundamental components, including training objective, attention
mechanism and decoding policy. Experiments on the most popular speech-to-text
translation benchmark dataset, MuST-C, show that UniST achieves significant
improvement for non-streaming ST, and a better-learned trade-off for BLEU score
and latency metrics for streaming ST, compared with end-to-end baselines and
the cascaded models. We will make our codes and evaluation tools publicly
available.
- Abstract(参考訳): 本稿では,ストリーミングおよび非ストリーミング音声翻訳のためのエンドツーエンドフレームワークについて述べる。
非ストリーミング音声翻訳のトレーニングレシピは成熟しているが、ストリーミング音声翻訳のレシピはまだ構築されていない。
本研究では,学習目標,注意機構,復号化ポリシなどの基本的コンポーネントの観点から,ストリーミングおよび非ストリーミングSTをサポートする統一モデル(UniST)の開発に着目する。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験では、UniST が非ストリーミング ST に対して大幅な改善を達成し、BLEU スコアとストリーミング ST のレイテンシメトリクスが、エンドツーエンドのベースラインやカスケードモデルと比較してより優れたトレードオフを実現している。
コードと評価ツールを一般公開する予定です。
関連論文リスト
- Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。
完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。
本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T13:56:36Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z) - Re-translation versus Streaming for Simultaneous Translation [14.800214853561823]
本研究では,厳密な付加語以上の仮説の修正が許される問題について検討する。
この設定では、カスタムストリーミングアプローチと再翻訳を比較します。
再翻訳は最先端のストリーミングシステムと同じくらい良いか良いかのどちらかだと考えています。
論文 参考訳(メタデータ) (2020-04-07T18:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。