論文の概要: LibriS2S: A German-English Speech-to-Speech Translation Corpus
- arxiv url: http://arxiv.org/abs/2204.10593v1
- Date: Fri, 22 Apr 2022 09:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:20:37.140252
- Title: LibriS2S: A German-English Speech-to-Speech Translation Corpus
- Title(参考訳): LibriS2S: ドイツ語から英語への音声翻訳コーパス
- Authors: Pedro Jeuris and Jan Niehues
- Abstract要約: 我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
- 参考スコア(独自算出の注目度): 12.376309678270275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, we have seen an increasing interest in the area of speech-to-text
translation. This has led to astonishing improvements in this area. In
contrast, the activities in the area of speech-to-speech translation is still
limited, although it is essential to overcome the language barrier. We believe
that one of the limiting factors is the availability of appropriate training
data. We address this issue by creating LibriS2S, to our knowledge the first
publicly available speech-to-speech training corpus between German and English.
For this corpus, we used independently created audio for German and English
leading to an unbiased pronunciation of the text in both languages. This allows
the creation of a new text-to-speech and speech-to-speech translation model
that directly learns to generate the speech signal based on the pronunciation
of the source language. Using this created corpus, we propose Text-to-Speech
models based on the example of the recently proposed FastSpeech 2 model that
integrates source language information. We do this by adapting the model to
take information such as the pitch, energy or transcript from the source speech
as additional input.
- Abstract(参考訳): 近年,音声からテキストへの翻訳の分野への関心が高まっている。
これはこの地域の驚くべき改善につながった。
対照的に、音声音声翻訳の分野での活動は依然として限られているが、言語障壁を克服することが不可欠である。
制限要因の1つは、適切なトレーニングデータの提供であると考えています。
我々は、ドイツ語と英語による最初の音声合成学習コーパスLibriS2Sを作成することでこの問題に対処する。
このコーパスでは、ドイツ語と英語の音声を独立に生成し、両方の言語でテキストの偏りのない発音に繋がった。
これにより、ソース言語の発音に基づいて、直接学習して音声信号を生成する新しいテキストから音声への翻訳モデルを作成することができる。
本稿では,このコーパスを用いて,ソースコード情報を統合するFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
我々は,音源音声からのピッチ,エネルギー,書き起こしなどの情報を付加入力として,モデルを適用することでこれを行う。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Kosp2e: Korean Speech to English Translation Corpus [11.44330742875498]
韓国語音声をエンドツーエンドで英文に翻訳するコーパスであるkosp2eを紹介する。
我々は,オープンライセンス音声認識コーパス,翻訳コーパス,音声言語コーパスを採用して,データセットを一般公開する。
論文 参考訳(メタデータ) (2021-07-06T20:34:06Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。