論文の概要: Speechformer: Reducing Information Loss in Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2109.04574v1
- Date: Thu, 9 Sep 2021 22:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:36:35.105780
- Title: Speechformer: Reducing Information Loss in Direct Speech Translation
- Title(参考訳): speechformer: 直接音声翻訳における情報損失の低減
- Authors: Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
- Abstract要約: 入力シーケンス長に対するトランスフォーマーの二次的複雑性は、音声信号と同様、その採用を妨げる。
現在のソリューションは、生音声特徴の固定サンプリングに基づいて、初期最適部分圧縮を利用する。
本稿では,最初の損失圧縮を回避するアーキテクチャであるSpeechformerを提案し,より情報のある言語基準に従って情報のみを高レベルに集約する。
- 参考スコア(独自算出の注目度): 13.89298686257514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based models have gained increasing popularity achieving
state-of-the-art performance in many research fields including speech
translation. However, Transformer's quadratic complexity with respect to the
input sequence length prevents its adoption as is with audio signals, which are
typically represented by long sequences. Current solutions resort to an initial
sub-optimal compression based on a fixed sampling of raw audio features.
Therefore, potentially useful linguistic information is not accessible to
higher-level layers in the architecture. To solve this issue, we propose
Speechformer, an architecture that, thanks to reduced memory usage in the
attention layers, avoids the initial lossy compression and aggregates
information only at a higher level according to more informed linguistic
criteria. Experiments on three language pairs (en->de/es/nl) show the efficacy
of our solution, with gains of up to 0.8 BLEU on the standard MuST-C corpus and
of up to 4.0 BLEU in a low resource scenario.
- Abstract(参考訳): トランスフォーマーベースのモデルは、音声翻訳を含む多くの研究分野で最先端のパフォーマンスを達成する人気が高まっている。
しかし、入力シーケンス長に関するトランスフォーマーの二次的な複雑さは、通常長いシーケンスで表される音声信号と同様に、その採用を妨げる。
現在のソリューションは、生音声特徴の固定サンプリングに基づいて、初期最適部分圧縮を利用する。
したがって、潜在的に有用な言語情報は、アーキテクチャの上位層にはアクセスできない。
この問題を解決するために,注意層におけるメモリ使用量の削減により,初期損失圧縮を回避し,より詳細な言語基準に従って情報のみを高レベルに集約するアーキテクチャであるSpeechformerを提案する。
3つの言語対(en->de/es/nl)の実験では、標準の MuST-C コーパスでは 0.8 BLEU、低リソースシナリオでは 4.0 BLEU が得られた。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - CTC-based Compression for Direct Speech Translation [14.151063458445826]
入力間接STモデルの動的圧縮を行うことができる最初の手法を提案する。
私たちのソリューションは、2つの言語ペアの強いベースラインよりも 1.3-1.5 BLEU の改善をもたらします。
論文 参考訳(メタデータ) (2021-02-02T16:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。