Fugu-MT 論文翻訳(概要): Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features

論文の概要: Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features

arxiv url: http://arxiv.org/abs/2212.05805v1
Date: Mon, 12 Dec 2022 10:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 17:50:50.454409
Title: Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features
Title（参考訳）: Bottleneck特徴を用いたテキスト注釈のない直接音声音声合成
Authors: Junhui Zhang, Junjie Pan, Xiang Yin, Zejun Ma
Abstract要約: テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。 Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
参考スコア（独自算出の注目度）: 13.44542301438426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-to-speech translation directly translates a speech utterance to another between different languages, and has great potential in tasks such as simultaneous interpretation. State-of-art models usually contains an auxiliary module for phoneme sequences prediction, and this requires textual annotation of the training dataset. We propose a direct speech-to-speech translation model which can be trained without any textual annotation or content information. Instead of introducing an auxiliary phoneme prediction task in the model, we propose to use bottleneck features as intermediate training objectives for our model to ensure the translation performance of the system. Experiments on Mandarin-Cantonese speech translation demonstrate the feasibility of the proposed approach and the performance can match a cascaded system with respect of translation and synthesis qualities.
Abstract（参考訳）: 音声から音声への翻訳は、異なる言語間での発話を直接翻訳し、同時解釈のようなタスクにおいて大きな可能性を持つ。 State-of-artモデルは、通常、音素シーケンス予測のための補助モジュールを含み、トレーニングデータセットのテキストアノテーションを必要とする。テキストの注釈や内容情報なしで学習できる音声から音声への直接翻訳モデルを提案する。モデルに補助音素予測タスクを導入する代わりに,システムの翻訳性能を保証するために,モデルの中間学習目標としてボトルネック機能を使用することを提案する。 Mandarin-Cantonese音声翻訳の実験は,提案手法の有効性を実証し,その性能は翻訳品質と合成品質の点でカスケードシステムと一致させることができる。

関連論文リスト

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。 InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文参考訳（メタデータ） (2025-03-04T16:34:14Z)
LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文参考訳（メタデータ） (2024-09-05T16:57:39Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。 MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文参考訳（メタデータ） (2022-04-11T20:59:51Z)
Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (2021-07-12T17:40:43Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。