論文の概要: Decision Attentive Regularization to Improve Simultaneous Speech
Translation Systems
- arxiv url: http://arxiv.org/abs/2110.15729v1
- Date: Wed, 13 Oct 2021 08:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 15:54:41.831179
- Title: Decision Attentive Regularization to Improve Simultaneous Speech
Translation Systems
- Title(参考訳): 同時音声翻訳システム改善のための決定注意規則化
- Authors: Mohd Abbas Zaidi, Beomseok Lee, Nikhil Kumar Lakumarapu, Sangha Kim,
Chanwoo Kim
- Abstract要約: SimulSTシステムでは、音声を部分入力を用いてタンデムで変換する。
近年,オフライン領域における音声翻訳(ST)の性能向上のために,テキスト翻訳タスクの活用が試みられている。
これらの改良により,モノトニック・マルチヘッド・アテンション(MMA)に基づくSimulSTシステムにDAR(Decision Attentive Regularization)を追加することを提案する。
- 参考スコア(独自算出の注目度): 12.152208198444182
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Simultaneous Speech-to-text Translation (SimulST) systems translate source
speech in tandem with the speaker using partial input. Recent works have tried
to leverage the text translation task to improve the performance of Speech
Translation (ST) in the offline domain. Motivated by these improvements, we
propose to add Decision Attentive Regularization (DAR) to Monotonic Multihead
Attention (MMA) based SimulST systems. DAR improves the read/write decisions
for speech using the Simultaneous text Translation (SimulMT) task. We also
extend several techniques from the offline domain to the SimulST task. Our
proposed system achieves significant performance improvements for the MuST-C
English-German (EnDe) SimulST task, where we provide an average BLUE score
improvement of around 4.57 points or 34.17% across different latencies.
Further, the latency-quality tradeoffs establish that the proposed model
achieves better results compared to the baseline.
- Abstract(参考訳): 同時音声対テキスト翻訳(simulst)システムは、部分入力を用いて話者とタンデムでソース音声を翻訳する。
近年,オフライン領域における音声翻訳(ST)の性能向上のために,テキスト翻訳タスクの活用が試みられている。
これらの改良により,モノトニック・マルチヘッド・アテンション(MMA)に基づくSimulSTシステムにDAR(Decision Attentive Regularization)を追加することを提案する。
darは同時翻訳(simulmt)タスクを使用して音声の読み書き判定を改善する。
また、オフラインドメインからSimulSTタスクまで、いくつかのテクニックを拡張しています。
提案システムでは,MUST-C 英語-ドイツ語 (EnDe) SimulST タスクにおいて,平均 BLUE スコアが約4.57ポイント,34.17% の遅延時間で向上する。
さらに、遅延品質のトレードオフは、提案モデルがベースラインよりも優れた結果を達成することを立証する。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task [36.51221186190272]
IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
論文 参考訳(メタデータ) (2021-07-14T19:43:44Z) - SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End
Simultaneous Speech Translation [23.685648804345984]
テキストの同時翻訳とエンドツーエンドの音声翻訳は、最近大きな進歩を遂げているが、これらのタスクを組み合わさった作業はほとんどない。
我々は,事前決定モジュールを導入することで,待ち時間や単調マルチヘッドといった同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる方法について検討する。
固定およびフレキシブルな事前決定と固定およびフレキシブルなポリシーを組み合わせることで、レイテンシ品質のトレードオフを詳細に分析する。
論文 参考訳(メタデータ) (2020-11-03T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。