論文の概要: R-BI: Regularized Batched Inputs enhance Incremental Decoding Framework
for Low-Latency Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2401.05700v1
- Date: Thu, 11 Jan 2024 07:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:35:02.678982
- Title: R-BI: Regularized Batched Inputs enhance Incremental Decoding Framework
for Low-Latency Simultaneous Speech Translation
- Title(参考訳): R-BI: 低レイテンシ同時音声翻訳のためのインクリメンタルデコーディングフレームワーク
- Authors: Jiaxin Guo, Zhanglin Wu, Zongyao Li, Hengchao Shang, Daimeng Wei,
Xiaoyu Chen, Zhiqiang Rao, Shaojun Li, Hao Yang
- Abstract要約: 我々は「正規化バッチ入力」という新しい適応的で効率的なポリシーを提案する。
提案手法は,オフラインシステムに比べて2BLEUポイントの損失を少なく抑えながら低レイテンシを実現する。
- 参考スコア(独自算出の注目度): 11.753970907693393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Incremental Decoding is an effective framework that enables the use of an
offline model in a simultaneous setting without modifying the original model,
making it suitable for Low-Latency Simultaneous Speech Translation. However,
this framework may introduce errors when the system outputs from incomplete
input. To reduce these output errors, several strategies such as Hold-$n$,
LA-$n$, and SP-$n$ can be employed, but the hyper-parameter $n$ needs to be
carefully selected for optimal performance. Moreover, these strategies are more
suitable for end-to-end systems than cascade systems. In our paper, we propose
a new adaptable and efficient policy named "Regularized Batched Inputs". Our
method stands out by enhancing input diversity to mitigate output errors. We
suggest particular regularization techniques for both end-to-end and cascade
systems. We conducted experiments on IWSLT Simultaneous Speech Translation
(SimulST) tasks, which demonstrate that our approach achieves low latency while
maintaining no more than 2 BLEU points loss compared to offline systems.
Furthermore, our SimulST systems attained several new state-of-the-art results
in various language directions.
- Abstract(参考訳): インクリメンタルデコーディングは、オリジナルのモデルを変更することなく、オフラインモデルを同時設定で使用できる効果的なフレームワークであり、低レイテンシ同時音声翻訳に適している。
しかし、このフレームワークはシステムが不完全な入力から出力した場合にエラーをもたらす可能性がある。
これらの出力エラーを減らすために、 hold-$n$、la-$n$、sp-$n$のようないくつかの戦略が採用できるが、最適な性能のためにハイパーパラメータ$n$を慎重に選択する必要がある。
さらに、これらの戦略はカスケードシステムよりもエンドツーエンドシステムに適している。
本稿では「正規化バッチ入力」という新しい適応的かつ効率的なポリシーを提案する。
本手法は,出力誤差を軽減するために入力の多様性を高めることで際立っている。
エンド・ツー・エンドとカスケードの両方のシステムの特定の正規化手法を提案する。
我々は,IWSLT同時音声翻訳(SimulST)タスクの実験を行い,本手法がオフラインシステムに比べて2BLEUポイントの損失を少なく抑えながら低レイテンシを実現することを示した。
さらに,シマルストシステムでは,様々な言語方向において新たな結果が得られた。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction [0.9502148118198473]
単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。
PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T04:05:24Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Applications of Deep Learning to the Design of Enhanced Wireless
Communication Systems [0.0]
ディープラーニング(DL)ベースのシステムは、抽出可能なモデルが存在しないような、ますます複雑なタスクを処理できる。
この論文は、物理層におけるDLの潜在能力を解き放つための様々なアプローチを比較することを目的としている。
論文 参考訳(メタデータ) (2022-05-02T21:02:14Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。