論文の概要: Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation
- arxiv url: http://arxiv.org/abs/2410.23323v1
- Date: Wed, 30 Oct 2024 09:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:04.635898
- Title: Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation
- Title(参考訳): 音声翻訳のためのアフリカ諸言語間の音韻的類似点の探索
- Authors: Peter Ochieng, Dennis Kaburu,
- Abstract要約: 本稿では,言語系統内および言語系統間の音声セグメントをマッピングするセグメントベースモデルを提案する。
5つの言語を含むケニア放送協会(KBC)から,プロプライエタリなデータセット上でモデルを評価した。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License:
- Abstract: This paper presents a pilot study on direct speech-to-speech translation (S2ST) by leveraging linguistic similarities among selected African languages within the same phylum, particularly in cases where traditional data annotation is expensive or impractical. We propose a segment-based model that maps speech segments both within and across language phyla, effectively eliminating the need for large paired datasets. By utilizing paired segments and guided diffusion, our model enables translation between any two languages in the dataset. We evaluate the model on a proprietary dataset from the Kenya Broadcasting Corporation (KBC), which includes five languages: Swahili, Luo, Kikuyu, Nandi, and English. The model demonstrates competitive performance in segment pairing and translation quality, particularly for languages within the same phylum. Our experiments reveal that segment length significantly influences translation accuracy, with average-length segments yielding the highest pairing quality. Comparative analyses with traditional cascaded ASR-MT techniques show that the proposed model delivers nearly comparable translation performance. This study underscores the potential of exploiting linguistic similarities within language groups to perform efficient S2ST, especially in low-resource language contexts.
- Abstract(参考訳): 本稿では,従来のデータアノテーションが高価あるいは実用的でない場合に,選択したアフリカの言語間の言語的類似性を活用して,直接音声音声翻訳(S2ST)のパイロット研究を行う。
本研究では,音声区間を言語系統内と言語系統内の両方にマッピングするセグメントベースモデルを提案し,大規模データセットの必要性を効果的に排除する。
ペア化されたセグメントとガイド付き拡散を利用して、データセット内の任意の2つの言語間の翻訳を可能にする。
スワヒリ語、ルオ語、キクユ語、ナンディ語、英語の5つの言語を含むケニア放送協会(KBC)の独自データセットを用いてモデルを評価した。
このモデルはセグメントペアリングと翻訳品質の競争力を示す。
実験の結果, セグメント長は翻訳精度に大きく影響し, 平均長セグメントは高いペアリング品質が得られることがわかった。
従来のASR-MT手法との比較分析により,提案手法がほぼ同等の翻訳性能を実現することが示された。
本研究は,特に低リソース言語文脈において,効率的なS2STを実現するために,言語グループ内の言語的類似性を活用できる可能性を明らかにする。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving Polish to English Neural Machine Translation with Transfer
Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。
OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。
実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T13:34:21Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Investigating Monolingual and Multilingual BERTModels for Vietnamese
Aspect Category Detection [0.0]
本稿ではベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。
実験結果は、他の2つのデータセットよりもモノリンガルPhoBERTモデルの有効性を実証した。
我々の知識を最大限に活用するために,我々の研究はアスペクトカテゴリー検出タスクにおいて,様々な事前学習言語モデルを実行するための最初の試みである。
論文 参考訳(メタデータ) (2021-03-17T09:04:03Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。