論文の概要: Speech-to-Speech Translation Pipelines for Conversations in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2506.01406v1
- Date: Mon, 02 Jun 2025 08:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.7298
- Title: Speech-to-Speech Translation Pipelines for Conversations in Low-Resource Languages
- Title(参考訳): 低音源言語における会話のための音声合成パイプライン
- Authors: Andrei Popescu-Belis, Alexis Allemann, Teo Ferrari, Gopal Krishnamani,
- Abstract要約: 人間の会話のための音声音声翻訳は増え続けているが、品質は言語対によって大きく異なる。
低リソース言語であるトルコ語とパシュト語をフランス語から翻訳するコミュニティの文脈で、我々は微調整とテストのデータを収集しました。
60以上のパイプラインを評価し,各方向に最適なパイプラインを決定した。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The popularity of automatic speech-to-speech translation for human conversations is growing, but the quality varies significantly depending on the language pair. In a context of community interpreting for low-resource languages, namely Turkish and Pashto to/from French, we collected fine-tuning and testing data, and compared systems using several automatic metrics (BLEU, COMET, and BLASER) and human assessments. The pipelines included automatic speech recognition, machine translation, and speech synthesis, with local models and cloud-based commercial ones. Some components have been fine-tuned on our data. We evaluated over 60 pipelines and determined the best one for each direction. We also found that the ranks of components are generally independent of the rest of the pipeline.
- Abstract(参考訳): ヒトの会話における音声自動翻訳の人気は高まっているが、品質は言語対によって大きく異なる。
低リソース言語、すなわちトルコ語とパシュト語をフランス語から翻訳するコミュニティの文脈において、我々は微調整とテストのデータを収集し、いくつかの自動メトリクス(BLEU、COMET、BLASER)と人間の評価システムと比較した。
パイプラインには、自動音声認識、機械翻訳、音声合成、ローカルモデルとクラウドベースの商用モデルが含まれていた。
いくつかのコンポーネントは、私たちのデータに基づいて微調整されています。
60以上のパイプラインを評価し,各方向に最適なパイプラインを決定した。
また、コンポーネントのランクは一般的にパイプラインの他の部分とは独立していることもわかりました。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。