論文の概要: Regularized Entropy Information Adaptation with Temporal-Awareness Networks for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2604.09916v1
- Date: Fri, 10 Apr 2026 21:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.746378
- Title: Regularized Entropy Information Adaptation with Temporal-Awareness Networks for Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳のための時間認識ネットワークを用いた正規化エントロピー情報適応
- Authors: Joseph Liu, Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana,
- Abstract要約: 同時音声翻訳(SimulST)では、高い翻訳品質と低レイテンシのバランスをとる必要がある。
最近の研究は、より多くのオーディオを読む際の情報ゲインを推定し、読み取り/書き込みポリシーを訓練するREINAを導入した。
情報ベースのポリシーには時間的文脈が欠如していることが多く、書き始める前にほとんどのオーディオを読むことに偏りが生じることが分かっています。
- 参考スコア(独自算出の注目度): 6.531488967831291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simultaneous Speech Translation (SimulST) requires balancing high translation quality with low latency. Recent work introduced REINA, a method that trains a Read/Write policy based on estimating the information gain of reading more audio. However, we find that information-based policies often lack temporal context, leading the policy to bias itself toward reading most of the audio before starting to write. We improve REINA using two distinct strategies: a supervised alignment network (REINA-SAN) and a timestep-augmented network (REINA-TAN). Our results demonstrate that while both methods significantly outperform the baseline and resolve stability issues, REINA-TAN provides a slightly superior Pareto frontier for streaming efficiency, whereas REINA-SAN offers more robustness against 'read loops'. Applied to Whisper, both methods improve the pareto frontier of streaming efficiency as measured by Normalized Streaming Efficiency (NoSE) scores up to 7.1% over existing competitive baselines.
- Abstract(参考訳): 同時音声翻訳(SimulST)では、高い翻訳品質と低レイテンシのバランスをとる必要がある。
最近の研究は、より多くのオーディオを読む際の情報ゲインを推定し、読み取り/書き込みポリシーを訓練するREINAを導入した。
しかし,情報に基づく政策は時間的文脈を欠くことが多く,その政策は書き始める前にほとんどの音声を読むことに偏りが生じる。
教師付きアライメントネットワーク(REINA-SAN)とタイムステップ拡張ネットワーク(REINA-TAN)の2つの戦略を用いてREINAを改善する。
以上の結果から,REINA-TANはストリーミング効率において若干優れたパレートフロンティアを提供するのに対し,REINA-SANは「リードループ」に対してより堅牢性が高いことを示す。
Whisper に応用すると、通常のストリーミング効率 (NoSE) によって測定されるストリーミング効率のパレートフロンティアは、既存の競合ベースラインよりも最大7.1%向上する。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - A Task-Oriented Evaluation Framework for Text Normalization in Modern NLP Pipelines [0.0]
本研究では,スリーミング手法を評価するための新しいタスク指向アプローチを提案する。
SES(Stemming Effectiveness Score)を用いたステミングの有用性,(2)モデル性能デルタ(MPD)を用いた下流タスクにおけるステミングの効果,(3)平均正規化Levenshtein Distance(ANLD)を用いた幹語と原語間の意味的類似性,の3つの側面を考察する。
我々の研究は、潜在的効率向上(高いSES)と意味保存(低いANLD)を区別するための貴重なツールを提供する。
論文 参考訳(メタデータ) (2025-11-25T15:35:42Z) - Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT [19.133273093370896]
本稿では,ASR(Automatic Speech Recognition)とMT(Machine Translation)をリアルタイム・オンデバイス・ストリーミング音声翻訳に利用する際の課題について述べる。
本稿では,翻訳品質とレイテンシを効果的にバランスさせる同時翻訳手法を提案する。
我々は,デバイス上でのバイリンガル音声翻訳にアプローチを適用し,レイテンシと品質の点で,我々の技術がベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-08-18T21:00:11Z) - REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation [3.230443390004258]
同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
私たちは、このトレードオフを最適化するための戦略を導入します。
正規化エントロピー情報適応(Regularized Entropy Information Adaptation, REINA)を提案する。
論文 参考訳(メタデータ) (2025-08-07T00:25:58Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。