論文の概要: End to end Hindi to English speech conversion using Bark, mBART and a
finetuned XLSR Wav2Vec2
- arxiv url: http://arxiv.org/abs/2401.06183v1
- Date: Thu, 11 Jan 2024 04:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:05:23.717402
- Title: End to end Hindi to English speech conversion using Bark, mBART and a
finetuned XLSR Wav2Vec2
- Title(参考訳): Bark, mBARTおよび微調整XLSR Wav2Vec2を用いたヒンディー語から英語への変換
- Authors: Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare,
Anirban C. Mitra
- Abstract要約: 本稿では,ヒンディー語から英語への翻訳に適したエンドツーエンド音声変換フレームワークを提案する。
自動音声認識(ASR)のためのXLSR Wav2Vec2、ニューラルネットワーク翻訳(NMT)のためのmBART、テキスト音声合成(TTS)コンポーネントといった最先端技術を統合することで、このフレームワークは言語間通信に対する統一的でシームレスなアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech has long been a barrier to effective communication and connection,
persisting as a challenge in our increasingly interconnected world. This
research paper introduces a transformative solution to this persistent obstacle
an end-to-end speech conversion framework tailored for Hindi-to-English
translation, culminating in the synthesis of English audio. By integrating
cutting-edge technologies such as XLSR Wav2Vec2 for automatic speech
recognition (ASR), mBART for neural machine translation (NMT), and a
Text-to-Speech (TTS) synthesis component, this framework offers a unified and
seamless approach to cross-lingual communication. We delve into the intricate
details of each component, elucidating their individual contributions and
exploring the synergies that enable a fluid transition from spoken Hindi to
synthesized English audio.
- Abstract(参考訳): 音声は長い間、効果的なコミュニケーションと接続の障壁であり、ますます相互に繋がる世界の挑戦として続いている。
本稿では、ヒンディー語から英語への翻訳用に調整されたエンドツーエンド音声変換フレームワークにおいて、この永続的な障害に対するトランスフォーメーションソリューションを提案する。
自動音声認識(ASR)のためのXLSR Wav2Vec2、ニューラルネットワーク翻訳(NMT)のためのmBART、テキスト音声合成(TTS)コンポーネントといった最先端技術を統合することで、このフレームワークは言語間通信に対する統一的でシームレスなアプローチを提供する。
我々は、各コンポーネントの複雑な詳細を掘り下げ、個々のコントリビューションを解明し、ヒンディー語から合成英語音声への流動的な遷移を可能にするシナジーを探索する。
関連論文リスト
- TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - End-to-End Speech Translation of Arabic to English Broadcast News [2.375764121997739]
音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに翻訳する作業である。
本稿では,最初のアラビア語から英語への翻訳システムであるブロードキャストニュースの開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-12-11T11:35:46Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文 参考訳(メタデータ) (2020-07-22T17:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。