論文の概要: SimulTron: On-Device Simultaneous Speech to Speech Translation
- arxiv url: http://arxiv.org/abs/2406.02133v1
- Date: Tue, 4 Jun 2024 09:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:11:25.848768
- Title: SimulTron: On-Device Simultaneous Speech to Speech Translation
- Title(参考訳): SimulTron: オンデバイス同時音声翻訳
- Authors: Alex Agranovich, Eliya Nachmani, Oleg Rybakov, Yifan Ding, Ye Jia, Nadav Bar, Heiga Zen, Michelle Tadmor Ramanovich,
- Abstract要約: 同時音声音声翻訳(S2ST)は、コミュニケーション障壁を分解し、言語間での会話を可能にするという約束を果たす。
この課題に対処するために設計された新しいS2STアーキテクチャであるSimulTronを紹介する。
SimulTronは、Translatotronフレームワークの強度を使用し、ストリーミング操作のための重要な変更と調整可能な固定遅延を組み込んだ軽量な直接S2STモデルである。
- 参考スコア(独自算出の注目度): 28.086805735325807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech-to-speech translation (S2ST) holds the promise of breaking down communication barriers and enabling fluid conversations across languages. However, achieving accurate, real-time translation through mobile devices remains a major challenge. We introduce SimulTron, a novel S2ST architecture designed to tackle this task. SimulTron is a lightweight direct S2ST model that uses the strengths of the Translatotron framework while incorporating key modifications for streaming operation, and an adjustable fixed delay. Our experiments show that SimulTron surpasses Translatotron 2 in offline evaluations. Furthermore, real-time evaluations reveal that SimulTron improves upon the performance achieved by Translatotron 1. Additionally, SimulTron achieves superior BLEU scores and latency compared to previous real-time S2ST method on the MuST-C dataset. Significantly, we have successfully deployed SimulTron on a Pixel 7 Pro device, show its potential for simultaneous S2ST on-device.
- Abstract(参考訳): 同時音声音声翻訳(S2ST)は、コミュニケーション障壁を分解し、言語間での会話を可能にするという約束を果たす。
しかし、モバイルデバイスによる正確なリアルタイム翻訳を実現することは、依然として大きな課題だ。
この課題に対処するために設計された新しいS2STアーキテクチャであるSimulTronを紹介する。
SimulTronは、Translatotronフレームワークの強度を使用し、ストリーミング操作のための重要な変更と調整可能な固定遅延を組み込んだ軽量な直接S2STモデルである。
実験の結果, SimulTron は Translatotron 2 のオフライン評価に勝っていることがわかった。
さらに、リアルタイム評価では、Translatotron 1で達成した性能が改善されている。
さらに、MuST-Cデータセット上の従来のリアルタイムS2ST法と比較して、SimulTronはBLEUスコアとレイテンシが優れている。
重要なことに、私たちはSimulTronをPixel 7 Proデバイスにデプロイすることに成功し、S2STをオンデバイスで同時に使用する可能性を示しました。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-05T08:24:22Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Blockwise Streaming Transformer for Spoken Language Understanding and
Simultaneous Speech Translation [35.31787938396058]
本稿では,ブロックワイド・ストリーミング・トランスフォーマーを用いた音声言語理解 (SLU) と音声翻訳 (ST) の最初のステップについて述べる。
本稿では,ターゲット言語翻訳に最適化されたCTC分岐を用いた言語間符号化手法を提案する。
実験結果から,ブロックワイド・ストリーミング・トランスフォーマーは,オフラインモデルと比較して競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-19T14:38:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。