論文の概要: Direct Speech-to-Speech Neural Machine Translation: A Survey
- arxiv url: http://arxiv.org/abs/2411.14453v1
- Date: Wed, 13 Nov 2024 13:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 04:42:47.434272
- Title: Direct Speech-to-Speech Neural Machine Translation: A Survey
- Title(参考訳): 直接音声から音声へのニューラルマシン翻訳:サーベイ
- Authors: Mahendra Gupta, Maitreyee Dutta, Chandresh Kumar Maurya,
- Abstract要約: 音声から音声への翻訳(S2ST)は、ある言語から同じ言語情報を持つ他の対象言語への変換をモデル化する。
近年,中間テキスト生成に頼らずに音声を翻訳できる直接S2STモデルが提案されている。
しかし、直接S2STはシームレス通信のための品質性能をまだ達成しておらず、性能面ではカスケードモデルに遅れを取っている。
- 参考スコア(独自算出の注目度): 0.8999666725996978
- License:
- Abstract: Speech-to-Speech Translation (S2ST) models transform speech from one language to another target language with the same linguistic information. S2ST is important for bridging the communication gap among communities and has diverse applications. In recent years, researchers have introduced direct S2ST models, which have the potential to translate speech without relying on intermediate text generation, have better decoding latency, and the ability to preserve paralinguistic and non-linguistic features. However, direct S2ST has yet to achieve quality performance for seamless communication and still lags behind the cascade models in terms of performance, especially in real-world translation. To the best of our knowledge, no comprehensive survey is available on the direct S2ST system, which beginners and advanced researchers can look upon for a quick survey. The present work provides a comprehensive review of direct S2ST models, data and application issues, and performance metrics. We critically analyze the models' performance over the benchmark datasets and provide research challenges and future directions.
- Abstract(参考訳): 音声から音声への翻訳(S2ST)は、ある言語から同じ言語情報を持つ他の対象言語への変換をモデル化する。
S2STはコミュニティ間のコミュニケーションギャップを埋めるのに重要であり、多様な応用がある。
近年,中間テキスト生成に頼らずに音声を翻訳する可能性を持つ直接S2STモデルを導入し,復号遅延が向上し,パラ言語的・非言語的特徴の保存が可能になった。
しかし、直接S2STは、シームレスな通信のための品質性能がまだ達成されておらず、特に現実世界の翻訳では、カスケードモデルに遅れを取っている。
私たちの知る限りでは、初心者や先進的な研究者が簡単な調査をすることができる、直接S2STシステムに関する包括的な調査は行われていない。
本研究は、直接S2STモデル、データおよびアプリケーション問題、パフォーマンスメトリクスの包括的なレビューを提供する。
ベンチマークデータセット上でモデルのパフォーマンスを批判的に分析し、研究課題と今後の方向性を提供する。
関連論文リスト
- Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。
機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-12-02T07:40:32Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。