論文の概要: Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation
- arxiv url: http://arxiv.org/abs/2407.03809v1
- Date: Thu, 4 Jul 2024 10:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:32:28.304491
- Title: Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation
- Title(参考訳): エストニア語会話音声翻訳のための微調整エンド・ツー・エンドモデル
- Authors: Tiia Sildam, Andra Velve, Tanel Alumäe,
- Abstract要約: 本稿では,エストニア語とエストニア語とロシア語の会話音声テキスト翻訳におけるエンドツーエンドモデルの微調整について検討する。
エストニア語のための音声翻訳データが限られているため、機械翻訳を用いた音声認識データセットからWebスクレイピングと合成により、追加のトレーニングデータを作成しました。
以上の結果から,合成データによる微調整により,SeamlessM4Tのマッチングや音声翻訳システムの超過により翻訳精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.8233569758620063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the finetuning of end-to-end models for bidirectional Estonian-English and Estonian-Russian conversational speech-to-text translation. Due to the limited availability of speech translation data for Estonian, we created additional training data by web scraping and synthesizing data from speech recognition datasets using machine translation. We evaluated three publicly available end-to-end models: Whisper, OWSM 3.1, and SeamlessM4T. Our results indicate that fine-tuning with synthetic data enhances translation accuracy by a large margin, with SeamlessM4T matching or surpassing cascaded speech translation systems that use state-of-the-art speech recognition and machine translation models.
- Abstract(参考訳): 本稿では,エストニア語-英語・エストニア語-ロシア語対話音声-テキスト翻訳におけるエンドツーエンドモデルの微調整について検討する。
エストニア語のための音声翻訳データが限られているため、機械翻訳を用いた音声認識データセットからWebスクレイピングと合成により、追加のトレーニングデータを作成しました。
我々は、Whisper、OWSM 3.1、SeamlessM4Tの3つの公開エンド・ツー・エンドモデルを評価した。
以上の結果から, 合成データを用いた微調整は, 最先端音声認識と機械翻訳モデルを用いたSeamlessM4Tマッチングやカスケード音声翻訳システムによる翻訳精度を大幅に向上させることが示唆された。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Translatotron 3: Speech to Speech Translation with Monolingual Data [23.376969078371282]
Translatotron 3は、モノリンガル音声テキストデータセットからの教師なし直接音声音声翻訳のための新しいアプローチである。
その結果,Translatotron 3はベースラインカスケードシステムより優れていた。
論文 参考訳(メタデータ) (2023-05-27T18:30:54Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。