Fugu-MT 論文翻訳(概要): RealTranS: End-to-End Simultaneous Speech Translation with Convolutional Weighted-Shrinking Transformer

論文の概要: RealTranS: End-to-End Simultaneous Speech Translation with Convolutional Weighted-Shrinking Transformer

arxiv url: http://arxiv.org/abs/2106.04833v1
Date: Wed, 9 Jun 2021 06:35:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:00:51.123094
Title: RealTranS: End-to-End Simultaneous Speech Translation with Convolutional Weighted-Shrinking Transformer
Title（参考訳）: RealTranS:畳み込み重み変換器を用いたエンドツーエンド同時音声翻訳
Authors: Xingshan Zeng, Liangyou Li, Qun Liu
Abstract要約: RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
参考スコア（独自算出の注目度）: 33.876412404781846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end simultaneous speech translation (SST), which directly translates speech in one language into text in another language in real-time, is useful in many scenarios but has not been fully investigated. In this work, we propose RealTranS, an end-to-end model for SST. To bridge the modality gap between speech and text, RealTranS gradually downsamples the input speech with interleaved convolution and unidirectional Transformer layers for acoustic modeling, and then maps speech features into text space with a weighted-shrinking operation and a semantic encoder. Besides, to improve the model performance in simultaneous scenarios, we propose a blank penalty to enhance the shrinking quality and a Wait-K-Stride-N strategy to allow local reranking during decoding. Experiments on public and widely-used datasets show that RealTranS with the Wait-K-Stride-N strategy outperforms prior end-to-end models as well as cascaded models in diverse latency settings.
Abstract（参考訳）: ある言語の音声を直接、他の言語のテキストにリアルタイムで翻訳するエンドツーエンド同時音声翻訳(sst)は、多くのシナリオで有用であるが、十分に検討されていない。本稿では,SSTのエンドツーエンドモデルであるRealTranSを提案する。音声とテキスト間のモダリティギャップを埋めるために、RealTranSは、音声モデルのためのインターリーブ畳み込み層と一方向トランスフォーマー層で入力音声を徐々にダウンサンプリングし、重み付け収縮操作とセマンティックエンコーダで音声特徴をテキスト空間にマッピングする。また,同時シナリオにおけるモデル性能向上のために,縮小品質向上のための空白ペナルティと,復号時に局所的な復号化を可能にするWait-K-Stride-N戦略を提案する。パブリックデータセットと広く使用されているデータセットの実験によると、Wait-K-Stride-N戦略によるRealTranSは、さまざまなレイテンシ設定でのケースドモデルだけでなく、従来のエンドツーエンドモデルよりもパフォーマンスが優れている。

関連論文リスト

Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文参考訳（メタデータ） (2025-04-16T06:46:15Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文参考訳（メタデータ） (2024-02-16T03:06:37Z)
Shiftable Context: Addressing Training-Inference Context Mismatch in Simultaneous Speech Translation [0.17188280334580192]
セグメントベース処理を用いたトランスフォーマーモデルは、同時音声翻訳に有効なアーキテクチャである。トレーニングと推論を通じて一貫したセグメントとコンテキストサイズを確実に維持するために、シフト可能なコンテキストを提案する。
論文参考訳（メタデータ） (2023-07-03T22:11:51Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。 MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-12-17T16:14:30Z)
Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文参考訳（メタデータ） (2021-01-22T15:16:54Z)
Streaming Simultaneous Speech Translation with Augmented Memory Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文参考訳（メタデータ） (2020-10-30T18:28:42Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。 SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文参考訳（メタデータ） (2020-07-31T17:44:41Z)
Relative Positional Encoding for Speech Recognition and Direct Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文参考訳（メタデータ） (2020-05-20T09:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。