論文の概要: Does Simultaneous Speech Translation need Simultaneous Models?
- arxiv url: http://arxiv.org/abs/2204.03783v1
- Date: Fri, 8 Apr 2022 00:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 20:05:29.539292
- Title: Does Simultaneous Speech Translation need Simultaneous Models?
- Title(参考訳): 同時翻訳には同時モデルが必要か?
- Authors: Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
- Abstract要約: オフラインでトレーニングされた1つのモデルが、オフラインだけでなく、異なるレイテンシー状態における同時タスクでも効果的に機能することを示します。
このシングルモデルソリューションは、レイテンシに影響を与えることなく、確立されたオフライン技術やアーキテクチャの採用を促進するだけでなく、同時設定でトレーニングされた同じモデルと比較して、同様の、あるいはさらに優れた翻訳品質をもたらす。
- 参考スコア(独自算出の注目度): 17.305879157385675
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In simultaneous speech translation (SimulST), finding the best trade-off
between high translation quality and low latency is a challenging task. To meet
the latency constraints posed by different application scenarios, multiple
dedicated SimulST models are usually trained and maintained, causing high
computational costs and increased environmental impact. In this paper, we show
that a single model trained offline can effectively serve not only offline but
also simultaneous tasks at different latency regimes, bypassing any
training/adaptation procedures. This single-model solution does not only
facilitate the adoption of well-established offline techniques and
architectures without affecting latency but also yields similar or even better
translation quality compared to the same model trained in the simultaneous
setting. Experiments on En$\rightarrow$\{De, Es\} indicate the effectiveness of
our approach, showing competitive results with the SimulST state of the art.
- Abstract(参考訳): 同時音声翻訳(SimulST)では、高い翻訳品質と低レイテンシの最良のトレードオフを見つけることが難しい課題である。
異なるアプリケーションシナリオによって生じるレイテンシの制約を満たすため、複数の専用SimulSTモデルは通常、トレーニングとメンテナンスが行われ、高い計算コストと環境への影響が増大する。
本稿では,オフラインでトレーニングされた1つのモデルが,オフラインだけでなく,異なるレイテンシ・レジームでの同時タスクにも効果的に機能することを示し,トレーニング/適応手順をバイパスする。
この単一モデルソリューションは、レイテンシに影響を与えることなく、確立されたオフライン技術やアーキテクチャの採用を促進するだけでなく、同時設定でトレーニングされた同じモデルと同等あるいはそれ以上の翻訳品質をもたらす。
en$\rightarrow$\{de, es\}の実験は、我々のアプローチの有効性を示し、芸術のシマルスト状態と競争的な結果を示している。
関連論文リスト
- Fixed and Adaptive Simultaneous Machine Translation Strategies Using Adapters [5.312303275762104]
機械翻訳は、全入力を消費する前に翻訳を開始することで、リアルタイム翻訳の課題を解決することを目的としている。
wait-$k$ポリシーは、$k$ワードを消費した後、翻訳を開始することでソリューションを提供する。
本稿では,複数のレイテンシレベルを満たす1つのモデルを構築するという課題に対処する。
論文 参考訳(メタデータ) (2024-07-18T12:42:45Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Tagged End-to-End Simultaneous Speech Translation Training using
Simultaneous Interpretation Data [16.05089716626287]
SIとオフラインの混合データを用いてSimulSTモデルをトレーニングする効果的な方法を提案する。
実験結果から, BLEURTのレイテンシの異なる範囲での改善が示された。
論文 参考訳(メタデータ) (2023-06-14T15:42:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - Universal Simultaneous Machine Translation with Mixture-of-Experts
Wait-k Policy [6.487736084189248]
同時機械翻訳(SiMT)は、原文全体を読む前に翻訳を生成する。
従来の手法では、遅延レベルが異なる複数のSiMTモデルをトレーニングする必要があるため、計算コストが大きくなる。
任意のレイテンシで最適な翻訳品質を実現するために,Mixture-of-Experts Wait-k Policyを用いた汎用SiMTモデルを提案する。
論文 参考訳(メタデータ) (2021-09-11T09:43:15Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z) - FastBERT: a Self-distilling BERT with Adaptive Inference Time [14.207970599841218]
我々のモデルは、12の英語と中国語のデータセットで有望な結果を得る。
スピードアップしきい値が異なる場合、BERTの1倍から12倍の範囲でスピードアップすることができる。
論文 参考訳(メタデータ) (2020-04-05T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。