論文の概要: Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus
- arxiv url: http://arxiv.org/abs/2502.18215v1
- Date: Tue, 25 Feb 2025 14:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:55.479935
- Title: Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus
- Title(参考訳): 音声の接続:ローソース音声並列コーパスとしてのLoReSpeech
- Authors: Samy Ouzerrout,
- Abstract要約: 本稿では,低音源音声合成コーパスであるLoReSpeechの構築手法を提案する。
LoReSpeechは言語内アライメントと言語間アライメントの両方を提供し、多言語ASRシステムの進歩を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Aligned audio corpora are fundamental to NLP technologies such as ASR and speech translation, yet they remain scarce for underrepresented languages, hindering their technological integration. This paper introduces a methodology for constructing LoReSpeech, a low-resource speech-to-speech translation corpus. Our approach begins with LoReASR, a sub-corpus of short audios aligned with their transcriptions, created through a collaborative platform. Building on LoReASR, long-form audio recordings, such as biblical texts, are aligned using tools like the MFA. LoReSpeech delivers both intra- and inter-language alignments, enabling advancements in multilingual ASR systems, direct speech-to-speech translation models, and linguistic preservation efforts, while fostering digital inclusivity. This work is conducted within Tutlayt AI project (https://tutlayt.fr).
- Abstract(参考訳): アライメントされた音声コーパスは、ASRや音声翻訳などのNLP技術の基本であるが、表現不足の言語には乏しく、技術的統合を妨げている。
本稿では,低音源音声合成コーパスであるLoReSpeechの構築手法を提案する。
われわれのアプローチは、短い音声のサブコーパスであるLoReASRから始まる。
LoReASR上に構築された長文の音声録音(聖書テキストなど)は、MFAのようなツールを使って調整される。
LoReSpeechは言語内アライメントと言語間アライメントの両方を提供し、多言語ASRシステムの進歩、直接音声音声変換モデル、言語保存の取り組みを可能とし、デジタルな傾きを育んでいる。
この作業はTutlayt AIプロジェクト(https://tutlayt.fr)内で実施されている。
関連論文リスト
- FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks [27.894172151026044]
FLEURS-Rは、音声コーパスの普遍表現に関するFew-shot Learning Evaluationの音声復元応用版である。
FLEURS-Rの目的は、より多くの言語で音声技術を進歩させ、テキスト音声を含む研究を触媒することである。
論文 参考訳(メタデータ) (2024-08-12T15:28:51Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。