論文の概要: Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference
- arxiv url: http://arxiv.org/abs/2303.07914v2
- Date: Thu, 26 Oct 2023 11:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:40:37.966099
- Title: Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference
- Title(参考訳): 将来の蒸留と推論を考慮したオフライン音声翻訳モデルへの適応
- Authors: Biao Fu, Minpeng Liao, Kai Fan, Zhongqiang Huang, Boxing Chen, Yidong
Chen, Xiaodong Shi
- Abstract要約: ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。
完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。
本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 34.50987690518264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular approach to streaming speech translation is to employ a single
offline model with a wait-k policy to support different latency requirements,
which is simpler than training multiple online models with different latency
constraints. However, there is a mismatch problem in using a model trained with
complete utterances for streaming inference with partial input. We demonstrate
that speech representations extracted at the end of a streaming input are
significantly different from those extracted from a complete utterance. To
address this issue, we propose a new approach called Future-Aware Streaming
Translation (FAST) that adapts an offline ST model for streaming input. FAST
includes a Future-Aware Inference (FAI) strategy that incorporates future
context through a trainable masked embedding, and a Future-Aware Distillation
(FAD) framework that transfers future context from an approximation of full
speech to streaming input. Our experiments on the MuST-C EnDe, EnEs, and EnFr
benchmarks show that FAST achieves better trade-offs between translation
quality and latency than strong baselines. Extensive analyses suggest that our
methods effectively alleviate the aforementioned mismatch problem between
offline training and online inference.
- Abstract(参考訳): ストリーミング音声翻訳の一般的なアプローチは、さまざまなレイテンシ要件をサポートするために、wait-kポリシを備えた単一のオフラインモデルを採用することだ。
しかし、完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチの問題が発生する。
ストリーム入力の最後に抽出された音声表現は,完全発話から抽出した音声とは大きく異なることを示す。
この問題に対処するため,FAST(Future-Aware Streaming Translation)と呼ばれる新しいアプローチを提案し,ストリーミング入力にオフラインSTモデルを適用する。
FASTには、トレーニング可能なマスク埋め込みを通じて将来のコンテキストを組み込むFuture-Aware Inference(FAI)戦略と、完全な音声の近似からストリーミング入力へ将来のコンテキストを転送するFuture-Aware Distillation(FAD)フレームワークが含まれている。
MuST-C EnDe, EnEs, EnFr のベンチマーク実験により,FAST は翻訳品質とレイテンシのトレードオフが強いベースラインよりも優れていることが示された。
本手法は,オフライントレーニングとオンライン推論のミスマッチ問題を効果的に緩和するものである。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation [12.63410397982031]
我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2021-09-15T15:22:10Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。