論文の概要: Direct Speech to Speech Translation: A Review
- arxiv url: http://arxiv.org/abs/2503.04799v1
- Date: Mon, 03 Mar 2025 06:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:29.539588
- Title: Direct Speech to Speech Translation: A Review
- Title(参考訳): 直接音声から音声への翻訳 : 概観
- Authors: Mohammad Sarim, Saim Shakeel, Laeeba Javed, Jamaluddin, Mohammad Nadeem,
- Abstract要約: 音声音声翻訳(S2ST)は,グローバル通信ギャップを埋める変換技術である。
自動音声認識(ASR)、機械翻訳(MT)、テキスト・トゥ・スピーチ(TTS)コンポーネントに依存する従来のカスケードモデルは、エラーの伝搬、遅延の増加、韻律の喪失に悩まされている。
直接S2STモデルは話者識別を保持し、レイテンシを低減し、発声特性と韻律を保存することにより翻訳自然性を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Speech to speech translation (S2ST) is a transformative technology that bridges global communication gaps, enabling real time multilingual interactions in diplomacy, tourism, and international trade. Our review examines the evolution of S2ST, comparing traditional cascade models which rely on automatic speech recognition (ASR), machine translation (MT), and text to speech (TTS) components with newer end to end and direct speech translation (DST) models that bypass intermediate text representations. While cascade models offer modularity and optimized components, they suffer from error propagation, increased latency, and loss of prosody. In contrast, direct S2ST models retain speaker identity, reduce latency, and improve translation naturalness by preserving vocal characteristics and prosody. However, they remain limited by data sparsity, high computational costs, and generalization challenges for low-resource languages. The current work critically evaluates these approaches, their tradeoffs, and future directions for improving real time multilingual communication.
- Abstract(参考訳): 音声から音声への翻訳(S2ST)は、グローバルなコミュニケーションギャップを埋め、外交、観光、国際貿易におけるリアルタイム多言語対話を可能にする変換技術である。
本稿では, 音声認識(ASR), 機械翻訳(MT), テキストから音声への変換(TTS) に依拠する従来のカスケードモデルと, 中間テキスト表現をバイパスする新しいエンドツーエンドおよび直接音声翻訳(DST)モデルとを比較し, S2STの進化を考察する。
カスケードモデルはモジュラリティと最適化されたコンポーネントを提供するが、エラーの伝搬、遅延の増加、韻律の喪失に悩まされている。
対照的に、直接S2STモデルは話者識別を保持し、レイテンシを低減し、発声特性と韻律を保存することにより翻訳自然性を向上させる。
しかし、これらは低リソース言語におけるデータ空間、高い計算コスト、一般化の課題によって制限されている。
現在の研究は、これらのアプローチ、トレードオフ、そしてリアルタイム多言語コミュニケーションを改善するための今後の方向性を批判的に評価している。
関連論文リスト
- Direct Speech-to-Speech Neural Machine Translation: A Survey [0.8999666725996978]
音声から音声への翻訳(S2ST)は、ある言語から同じ言語情報を持つ他の対象言語への変換をモデル化する。
近年,中間テキスト生成に頼らずに音声を翻訳できる直接S2STモデルが提案されている。
しかし、直接S2STはシームレス通信のための品質性能をまだ達成しておらず、性能面ではカスケードモデルに遅れを取っている。
論文 参考訳(メタデータ) (2024-11-13T13:01:21Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Large-Scale Streaming End-to-End Speech Translation with Neural
Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。
ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。
TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文 参考訳(メタデータ) (2022-04-11T18:18:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。