論文の概要: Direct Punjabi to English speech translation using discrete units
- arxiv url: http://arxiv.org/abs/2402.15967v1
- Date: Sun, 25 Feb 2024 03:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:59:43.353235
- Title: Direct Punjabi to English speech translation using discrete units
- Title(参考訳): 離散単位を用いた英語音声翻訳への直接パンジャビ
- Authors: Prabhjot Kaur, L. Andrew M. Bush, Weisong Shi
- Abstract要約: 本稿では,Punjabi という言語を英語に翻訳する手法を提案する。
また、トランスフォーマーに基づく翻訳モデルへの入力として、離散音響単位と呼ばれる音声の離散表現を用いた場合の性能についても検討する。
以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.883313216485195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-to-speech translation is yet to reach the same level of coverage as
text-to-text translation systems. The current speech technology is highly
limited in its coverage of over 7000 languages spoken worldwide, leaving more
than half of the population deprived of such technology and shared experiences.
With voice-assisted technology (such as social robots and speech-to-text apps)
and auditory content (such as podcasts and lectures) on the rise, ensuring that
the technology is available for all is more important than ever. Speech
translation can play a vital role in mitigating technological disparity and
creating a more inclusive society. With a motive to contribute towards speech
translation research for low-resource languages, our work presents a direct
speech-to-speech translation model for one of the Indic languages called
Punjabi to English. Additionally, we explore the performance of using a
discrete representation of speech called discrete acoustic units as input to
the Transformer-based translation model. The model, abbreviated as Unit-to-Unit
Translation (U2UT), takes a sequence of discrete units of the source language
(the language being translated from) and outputs a sequence of discrete units
of the target language (the language being translated to). Our results show
that the U2UT model performs better than the Speech-to-Unit Translation (S2UT)
model by a 3.69 BLEU score.
- Abstract(参考訳): 音声から音声への翻訳は、テキストからテキストへの翻訳システムと同じレベルに達していない。
現在の音声技術は、7000以上の言語が世界中で話されており、人口の半分以上がそのような技術や共有体験を奪われている。
音声アシスタント技術(ソーシャルロボットや音声テキストアプリなど)と音声コンテンツ(ポッドキャストや講義など)が普及するにつれ、この技術がすべて利用可能になるのは、これまで以上に重要だ。
音声翻訳は、技術的格差を緩和し、より包括的な社会を作る上で重要な役割を果たす。
低リソース言語のための音声翻訳研究に寄与する動機として,punjabi to englishと呼ばれる言語に対して,直接音声翻訳モデルを提案する。
さらに,トランスフォーマチック翻訳モデルの入力として,離散音響単位と呼ばれる音声の離散表現を用いた場合の性能について検討する。
Unit-to-Unit Translation (U2UT) と略されるこのモデルは、ソース言語の独立したユニットのシーケンス(翻訳される言語)を取り、ターゲット言語の独立したユニットのシーケンス(翻訳される言語)を出力する。
以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。