論文の概要: REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2508.04946v2
- Date: Mon, 11 Aug 2025 18:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.386979
- Title: REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
- Title(参考訳): REINA: 効率的な同時音声翻訳のための正規化エントロピー情報に基づく損失
- Authors: Nameer Hirschkind, Joseph Liu, Xiao Yu, Mahesh Kumar Nandwana,
- Abstract要約: 同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
私たちは、このトレードオフを最適化するための戦略を導入します。
正規化エントロピー情報適応(Regularized Entropy Information Adaptation, REINA)を提案する。
- 参考スコア(独自算出の注目度): 3.230443390004258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simultaneous Speech Translation (SimulST) systems stream in audio while simultaneously emitting translated text or speech. Such systems face the significant challenge of balancing translation quality and latency. We introduce a strategy to optimize this tradeoff: wait for more input only if you gain information by doing so. Based on this strategy, we present Regularized Entropy INformation Adaptation (REINA), a novel loss to train an adaptive policy using an existing non-streaming translation model. We derive REINA from information theory principles and show that REINA helps push the reported Pareto frontier of the latency/quality tradeoff over prior works. Utilizing REINA, we train a SimulST model on French, Spanish and German, both from and into English. Training on only open source or synthetically generated data, we achieve state-of-the-art (SOTA) streaming results for models of comparable size. We also introduce a metric for streaming efficiency, quantitatively showing REINA improves the latency/quality trade-off by as much as 21% compared to prior approaches, normalized against non-streaming baseline BLEU scores.
- Abstract(参考訳): 同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
このようなシステムは、翻訳品質とレイテンシのバランスをとるという大きな課題に直面している。
私たちは、このトレードオフを最適化するための戦略を紹介します。
この戦略に基づき、既存の非ストリーミング翻訳モデルを用いて適応政策を訓練する新たな損失である正規化エントロピー情報適応(REINA)を提案する。
私たちは、情報理論の原則からREINAを導き出し、REINAが報告されたParetoフロンティアに、以前の作業よりもレイテンシ/品質のトレードオフを推進できることを示します。
ReINAを利用することで、フランス語、スペイン語、ドイツ語のSimulSTモデルを英語と英語の両方でトレーニングします。
オープンソースまたは合成生成データのみをトレーニングし、同等の大きさのモデルに対して、最先端(SOTA)ストリーミング結果を得る。
また,非ストリーミングベースラインBLEUスコアに対して正規化されている従来の手法と比較して,REINAがレイテンシ/品質トレードオフを最大21%改善することを示す,ストリーミング効率の指標も導入した。
関連論文リスト
- Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization [0.19791587637442667]
逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。
我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。
提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
論文 参考訳(メタデータ) (2025-05-30T05:41:03Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation [29.76274107159478]
非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
論文 参考訳(メタデータ) (2024-05-22T01:10:39Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Re-translation versus Streaming for Simultaneous Translation [14.800214853561823]
本研究では,厳密な付加語以上の仮説の修正が許される問題について検討する。
この設定では、カスタムストリーミングアプローチと再翻訳を比較します。
再翻訳は最先端のストリーミングシステムと同じくらい良いか良いかのどちらかだと考えています。
論文 参考訳(メタデータ) (2020-04-07T18:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。