論文の概要: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation
- arxiv url: http://arxiv.org/abs/2109.07368v1
- Date: Wed, 15 Sep 2021 15:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:56:36.755130
- Title: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation
- Title(参考訳): unist: ストリーミングおよび非ストリーミング音声翻訳のための統一エンド・ツー・エンドモデル
- Authors: Qianqian Dong, Yaoming Zhu, Mingxuan Wang, Lei Li
- Abstract要約: 我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 12.63410397982031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a unified end-to-end frame-work for both streaming and
non-streamingspeech translation. While the training recipes for non-streaming
speech translation have been mature, the recipes for streaming
speechtranslation are yet to be built. In this work, wefocus on developing a
unified model (UniST) which supports streaming and non-streaming ST from the
perspective of fundamental components, including training objective, attention
mechanism and decoding policy. Experiments on the most popular speech-to-text
translation benchmark dataset, MuST-C, show that UniST achieves significant
improvement for non-streaming ST, and a better-learned trade-off for BLEU score
and latency metrics for streaming ST, compared with end-to-end baselines and
the cascaded models. We will make our codes and evaluation tools publicly
available.
- Abstract(参考訳): 本稿では,ストリーミングおよび非ストリーミング音声翻訳のためのエンドツーエンドフレームワークについて述べる。
非ストリーミング音声翻訳のトレーニングレシピは成熟しているが、ストリーミング音声翻訳のレシピはまだ構築されていない。
本研究では,学習目標,注意機構,復号化ポリシなどの基本的コンポーネントの観点から,ストリーミングおよび非ストリーミングSTをサポートする統一モデル(UniST)の開発に着目する。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験では、UniST が非ストリーミング ST に対して大幅な改善を達成し、BLEU スコアとストリーミング ST のレイテンシメトリクスが、エンドツーエンドのベースラインやカスケードモデルと比較してより優れたトレードオフを実現している。
コードと評価ツールを一般公開する予定です。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection [23.75894159181602]
Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。
第1のStreamSTポリシであるStreamAttを導入し,第1のStreamSTレイテンシメトリックであるStreamLAALを提案する。
論文 参考訳(メタデータ) (2024-06-10T08:27:58Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。
完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。
本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T13:56:36Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。