論文の概要: Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation
- arxiv url: http://arxiv.org/abs/2310.14806v1
- Date: Mon, 23 Oct 2023 11:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:37:29.358482
- Title: Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation
- Title(参考訳): 直列化ジョイント・ストリーミング認識と翻訳におけるタイムスタンプ情報の利用
- Authors: Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Naoyuki Kanda, Jinyu
Li, Yashesh Gaur
- Abstract要約: 本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 51.399695200838586
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing need for instant spoken language transcription and translation is
driven by increased global communication and cross-lingual interactions. This
has made offering translations in multiple languages essential for user
applications. Traditional approaches to automatic speech recognition (ASR) and
speech translation (ST) have often relied on separate systems, leading to
inefficiencies in computational resources, and increased synchronization
complexity in real time. In this paper, we propose a streaming
Transformer-Transducer (T-T) model able to jointly produce many-to-one and
one-to-many transcription and translation using a single decoder. We introduce
a novel method for joint token-level serialized output training based on
timestamp information to effectively produce ASR and ST outputs in the
streaming setting. Experiments on {it,es,de}->en prove the effectiveness of our
approach, enabling the generation of one-to-many joint outputs with a single
decoder for the first time.
- Abstract(参考訳): 言語翻訳と翻訳の必要性の高まりは、グローバルコミュニケーションの増大と言語間相互作用によって引き起こされる。
これにより、ユーザアプリケーションに不可欠な複数の言語で翻訳を提供するようになった。
音声認識(asr)と音声翻訳(st)に対する従来のアプローチは、しばしば別々のシステムに依存しており、計算資源の非効率化とリアルタイムの同期の複雑さの増加に繋がる。
本稿では,単一デコーダを用いて多対一・一対多の転写・翻訳を同時生成可能なストリーミングトランスフォーマトランスデューサ(t-t)モデルを提案する。
本稿では,タイムスタンプ情報に基づく共同トークンレベルのシリアライズ出力トレーニング手法を提案し,ストリーミング環境でのASRおよびST出力を効果的に生成する。
i,es,de}-> の実験により,本手法の有効性が証明され,単一デコーダを用いた一対多のジョイント出力が初めて実現された。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized
Streaming ASR [21.622039537743607]
音声からテキストへの同時翻訳は多くのシナリオで広く有用である。
最近の試みでは、ソース音声を同時にターゲットテキストに翻訳しようとする試みがあるが、これは2つの別々のタスクが組み合わさったため、はるかに難しい。
ケースドとエンド・ツー・エンドの両方のアプローチの利点を活かした新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-06-11T23:22:37Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。