Fugu-MT 論文翻訳(概要): Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation

論文の概要: Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation

arxiv url: http://arxiv.org/abs/2410.23323v1
Date: Wed, 30 Oct 2024 09:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.509666
Title: Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation
Title（参考訳）: 音声翻訳のためのアフリカ諸言語間の音韻的類似点の探索
Authors: Peter Ochieng, Dennis Kaburu,
Abstract要約: 本稿では,言語系統内および言語系統間の音声セグメントをマッピングするセグメントベースモデルを提案する。 5つの言語を含むケニア放送協会(KBC)から,プロプライエタリなデータセット上でモデルを評価した。
参考スコア（独自算出の注目度）: 2.7624021966289605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a pilot study on direct speech-to-speech translation (S2ST) by leveraging linguistic similarities among selected African languages within the same phylum, particularly in cases where traditional data annotation is expensive or impractical. We propose a segment-based model that maps speech segments both within and across language phyla, effectively eliminating the need for large paired datasets. By utilizing paired segments and guided diffusion, our model enables translation between any two languages in the dataset. We evaluate the model on a proprietary dataset from the Kenya Broadcasting Corporation (KBC), which includes five languages: Swahili, Luo, Kikuyu, Nandi, and English. The model demonstrates competitive performance in segment pairing and translation quality, particularly for languages within the same phylum. Our experiments reveal that segment length significantly influences translation accuracy, with average-length segments yielding the highest pairing quality. Comparative analyses with traditional cascaded ASR-MT techniques show that the proposed model delivers nearly comparable translation performance. This study underscores the potential of exploiting linguistic similarities within language groups to perform efficient S2ST, especially in low-resource language contexts.
Abstract（参考訳）: 本稿では,従来のデータアノテーションが高価あるいは実用的でない場合に,選択したアフリカの言語間の言語的類似性を活用して,直接音声音声翻訳(S2ST)のパイロット研究を行う。本研究では,音声区間を言語系統内と言語系統内の両方にマッピングするセグメントベースモデルを提案し,大規模データセットの必要性を効果的に排除する。ペア化されたセグメントとガイド付き拡散を利用して、データセット内の任意の2つの言語間の翻訳を可能にする。スワヒリ語、ルオ語、キクユ語、ナンディ語、英語の5つの言語を含むケニア放送協会(KBC)の独自データセットを用いてモデルを評価した。このモデルはセグメントペアリングと翻訳品質の競争力を示す。実験の結果, セグメント長は翻訳精度に大きく影響し, 平均長セグメントは高いペアリング品質が得られることがわかった。従来のASR-MT手法との比較分析により,提案手法がほぼ同等の翻訳性能を実現することが示された。本研究は,特に低リソース言語文脈において,効率的なS2STを実現するために,言語グループ内の言語的類似性を活用できる可能性を明らかにする。

関連論文リスト

CBF-AFA: Chunk-Based Multi-SSL Fusion for Automatic Fluency Assessment [0.22499166814992438]
AFA(Automatic Fluency Assessment)は、特に非ネイティブ話者の音声リズム、ポーズ、拡散を捉える上で、依然として困難である。本稿では, 音声, 韻律, 騒々しい音声モデリングにおいて, 相補的な強みのために選択された自己教師付き学習(SSL)モデルを統合するチャンクベースアプローチを提案する。提案手法では,AvalinguoではF1スコアが2.8,Pearson相関が6.2,F1スコアが4.2,Pearsonポイントが4.0であった。
論文参考訳（メタデータ） (2025-06-25T08:39:22Z)
Beyond Data Quantity: Key Factors Driving Performance in Multilingual Language Models [1.5703073293718952]
モデル性能を向上させるために、事前訓練データとモデルサイズとともに、重要な要因としてのトーケン類似性と国間類似性を考察した。これらの洞察は、より公平で効果的な多言語言語モデルを開発するための貴重なガイダンスを提供する。
論文参考訳（メタデータ） (2024-12-17T03:05:26Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Towards a Deep Understanding of Multilingual End-to-End Speech Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。我々は分析から3つの大きな発見を得た。
論文参考訳（メタデータ） (2023-10-31T13:50:55Z)
GradSim: Gradient-Based Language Grouping for Effective Multilingual Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。 3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文参考訳（メタデータ） (2023-10-23T18:13:37Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
Improving Polish to English Neural Machine Translation with Transfer Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。 OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-06-01T13:34:21Z)
CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。 MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文参考訳（メタデータ） (2023-05-27T03:54:09Z)
Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。 textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文参考訳（メタデータ） (2023-05-23T13:13:48Z)
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文参考訳（メタデータ） (2023-03-09T14:58:29Z)
M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。 MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2022-12-07T14:22:00Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文参考訳（メタデータ） (2022-03-16T04:50:27Z)
Regularizing End-to-End Speech Translation with Triangular Decomposition Agreement [27.87144563354033]
本稿では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングのための新しい正規化手法を提案する。 MuST-Cベンチマーク実験により,提案手法は最先端のE2E-STベースラインを著しく上回ることを示した。
論文参考訳（メタデータ） (2021-12-21T05:24:01Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Investigating Monolingual and Multilingual BERTModels for Vietnamese Aspect Category Detection [0.0]
本稿ではベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。実験結果は、他の2つのデータセットよりもモノリンガルPhoBERTモデルの有効性を実証した。我々の知識を最大限に活用するために,我々の研究はアスペクトカテゴリー検出タスクにおいて,様々な事前学習言語モデルを実行するための最初の試みである。
論文参考訳（メタデータ） (2021-03-17T09:04:03Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文参考訳（メタデータ） (2020-08-13T09:36:05Z)
Investigating Language Impact in Bilingual Approaches for Computational Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文参考訳（メタデータ） (2020-03-30T10:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。