Fugu-MT 論文翻訳(概要): UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation

論文の概要: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation

arxiv url: http://arxiv.org/abs/2109.07368v1
Date: Wed, 15 Sep 2021 15:22:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 14:56:36.755130
Title: UniST: Unified End-to-end Model for Streaming and Non-streaming Speech Translation
Title（参考訳）: unist: ストリーミングおよび非ストリーミング音声翻訳のための統一エンド・ツー・エンドモデル
Authors: Qianqian Dong, Yaoming Zhu, Mingxuan Wang, Lei Li
Abstract要約: 我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
参考スコア（独自算出の注目度）: 12.63410397982031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a unified end-to-end frame-work for both streaming and non-streamingspeech translation. While the training recipes for non-streaming speech translation have been mature, the recipes for streaming speechtranslation are yet to be built. In this work, wefocus on developing a unified model (UniST) which supports streaming and non-streaming ST from the perspective of fundamental components, including training objective, attention mechanism and decoding policy. Experiments on the most popular speech-to-text translation benchmark dataset, MuST-C, show that UniST achieves significant improvement for non-streaming ST, and a better-learned trade-off for BLEU score and latency metrics for streaming ST, compared with end-to-end baselines and the cascaded models. We will make our codes and evaluation tools publicly available.
Abstract（参考訳）: 本稿では,ストリーミングおよび非ストリーミング音声翻訳のためのエンドツーエンドフレームワークについて述べる。非ストリーミング音声翻訳のトレーニングレシピは成熟しているが、ストリーミング音声翻訳のレシピはまだ構築されていない。本研究では,学習目標,注意機構,復号化ポリシなどの基本的コンポーネントの観点から,ストリーミングおよび非ストリーミングSTをサポートする統一モデル(UniST)の開発に着目する。最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験では、UniST が非ストリーミング ST に対して大幅な改善を達成し、BLEU スコアとストリーミング ST のレイテンシメトリクスが、エンドツーエンドのベースラインやカスケードモデルと比較してより優れたトレードオフを実現している。コードと評価ツールを一般公開する予定です。

関連論文リスト

StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model [20.978001644716063]
ストリーム音声翻訳(StreamST)は、ポリシーとして知られる適切なタイミングで翻訳を生成する必要がある。既存のStreamSTメソッドは通常、同時音声翻訳(SimulST)と呼ばれる文レベルの音声セグメントで動作する。本稿では,Large Speech-Language Model (LSLM) を用いてStreamSTを実現するStreamUniを提案する。
論文参考訳（メタデータ） (2025-07-10T14:28:39Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文参考訳（メタデータ） (2024-08-18T10:12:39Z)
CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文参考訳（メタデータ） (2024-08-14T10:44:51Z)
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection [23.75894159181602]
Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。第1のStreamSTポリシであるStreamAttを導入し,第1のStreamSTレイテンシメトリックであるStreamLAALを提案する。
論文参考訳（メタデータ） (2024-06-10T08:27:58Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文参考訳（メタデータ） (2023-07-07T02:26:18Z)
Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-14T13:56:36Z)
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文参考訳（メタデータ） (2022-07-03T04:26:53Z)
Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文参考訳（メタデータ） (2022-06-09T15:39:19Z)
Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文参考訳（メタデータ） (2021-01-22T15:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。