論文の概要: Blockwise Streaming Transformer for Spoken Language Understanding and
Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2204.08920v1
- Date: Tue, 19 Apr 2022 14:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:45:23.600397
- Title: Blockwise Streaming Transformer for Spoken Language Understanding and
Simultaneous Speech Translation
- Title(参考訳): 音声言語理解と同時音声翻訳のためのブロックワイドストリーミング変換器
- Authors: Keqi Deng, Shinji Watanabe, Jiatong Shi, Siddhant Arora
- Abstract要約: 本稿では,ブロックワイド・ストリーミング・トランスフォーマーを用いた音声言語理解 (SLU) と音声翻訳 (ST) の最初のステップについて述べる。
本稿では,ターゲット言語翻訳に最適化されたCTC分岐を用いた言語間符号化手法を提案する。
実験結果から,ブロックワイド・ストリーミング・トランスフォーマーは,オフラインモデルと比較して競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 35.31787938396058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Transformers have gained success in several speech processing tasks
like spoken language understanding (SLU) and speech translation (ST), achieving
online processing while keeping competitive performance is still essential for
real-world interaction. In this paper, we take the first step on streaming SLU
and simultaneous ST using a blockwise streaming Transformer, which is based on
contextual block processing and blockwise synchronous beam search. Furthermore,
we design an automatic speech recognition (ASR)-based intermediate loss
regularization for the streaming SLU task to improve the classification
performance further. As for the simultaneous ST task, we propose a
cross-lingual encoding method, which employs a CTC branch optimized with target
language translations. In addition, the CTC translation output is also used to
refine the search space with CTC prefix score, achieving joint CTC/attention
simultaneous translation for the first time. Experiments for SLU are conducted
on FSC and SLURP corpora, while the ST task is evaluated on Fisher-CallHome
Spanish and MuST-C En-De corpora. Experimental results show that the blockwise
streaming Transformer achieves competitive results compared to offline models,
especially with our proposed methods that further yield a 2.4% accuracy gain on
the SLU task and a 4.3 BLEU gain on the ST task over streaming baselines.
- Abstract(参考訳): トランスフォーマーは、音声言語理解(SLU)や音声翻訳(ST)など、いくつかの音声処理タスクで成功を収めてきたが、実世界の対話には、競争力を維持しながらオンライン処理を実現することが不可欠である。
本稿では,ブロックワイド・ストリーミング・トランスフォーマを用いて,SLUとSTを同時ストリーミングする最初のステップを,コンテキスト的ブロック処理とブロックワイド同期ビームサーチに基づいて行う。
さらに,ストリーミングSLUタスクのための音声認識(ASR)に基づく中間損失正規化を設計し,分類性能をさらに向上する。
同時STタスクについては,ターゲット言語翻訳に最適化されたCTCブランチを用いた言語間符号化手法を提案する。
さらに、CTC翻訳出力を使用して、CTCプレフィックススコアで検索空間を洗練し、共同CTC/アテンション同時翻訳を初めて達成する。
SLU 実験は FSC と SLURP コーパスで行われ,ST タスクは Fisher-CallHome Spanish と MuST-C En-De コーパスで評価された。
実験の結果, ブロックワイド・ストリーミング・トランスフォーマーは, オフラインモデルと比較して, 特に, SLUタスクでは2.4%, STタスクでは4.3BLEUの精度向上を実現していることがわかった。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation [14.410024368174872]
本稿では,同時音声翻訳のためのラベル同期型ニューラルトランスデューサLS-Transducer-SSTを提案する。
LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。
Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
論文 参考訳(メタデータ) (2024-06-06T22:39:43Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation [12.63410397982031]
我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2021-09-15T15:22:10Z) - Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in
Multitask End-to-End Speech Translation [127.54315184545796]
音声翻訳(ST)は、ソース言語の音声からターゲット言語のテキストへの変換を学習することを目的としている。
単語埋め込みを中間語として活用することでマルチタスクSTモデルを改善することを提案する。
論文 参考訳(メタデータ) (2020-05-21T14:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。