論文の概要: Phonology-Guided Speech-to-Speech Translation for African Languages
- arxiv url: http://arxiv.org/abs/2410.23323v2
- Date: Tue, 10 Jun 2025 08:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 19:51:30.13043
- Title: Phonology-Guided Speech-to-Speech Translation for African Languages
- Title(参考訳): アフリカ言語のための音韻誘導型音声音声音声翻訳
- Authors: Peter Ochieng, Dennis Kaburu,
- Abstract要約: 音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a prosody-guided framework for speech-to-speech translation (S2ST) that aligns and translates speech \emph{without} transcripts by leveraging cross-linguistic pause synchrony. Analyzing a 6{,}000-hour East African news corpus spanning five languages, we show that \emph{within-phylum} language pairs exhibit 30--40\% lower pause variance and over 3$\times$ higher onset/offset correlation compared to cross-phylum pairs. These findings motivate \textbf{SPaDA}, a dynamic-programming alignment algorithm that integrates silence consistency, rate synchrony, and semantic similarity. SPaDA improves alignment $F_1$ by +3--4 points and eliminates up to 38\% of spurious matches relative to greedy VAD baselines. Using SPaDA-aligned segments, we train \textbf{SegUniDiff}, a diffusion-based S2ST model guided by \emph{external gradients} from frozen semantic and speaker encoders. SegUniDiff matches an enhanced cascade in BLEU (30.3 on CVSS-C vs.\ 28.9 for UnitY), reduces speaker error rate (EER) from 12.5\% to 5.3\%, and runs at an RTF of 1.02. To support evaluation in low-resource settings, we also release a three-tier, transcript-free BLEU suite (M1--M3) that correlates strongly with human judgments. Together, our results show that prosodic cues in multilingual speech provide a reliable scaffold for scalable, non-autoregressive S2ST.
- Abstract(参考訳): 本稿では,言語間停止同期を利用して,音声を合成・翻訳するS2ST(Prosody-Guided framework for speech-to-Speech translation)を提案する。
5 つの言語にまたがる 6{,}000 時間の東アフリカニュースコーパスを解析した結果,<emph{within-phylum} 言語対は30~40 %低いポーズ分散を示し,また3$\times$ 以上のオンセット/オフセット相関を示した。
これらの発見は、沈黙の一貫性、レート同期、意味的類似性を統合する動的プログラミングアライメントアルゴリズムである \textbf{SPaDA} を動機付けている。
SPaDAは、アライメント$F_1$を+3--4ポイント改善し、グリージーなVADベースラインに対して最大38\%のスプリアスマッチを除去する。
SPaDA整列セグメントを用いて、凍結セマンティックおよび話者エンコーダからemph{external gradients}で導かれる拡散ベースのS2STモデルであるtextbf{SegUniDiff}を訓練する。
SegUniDiffはBLEUの強化カスケード(CVSS-C対CVSS-C)にマッチする。
UnitYは28.9で、話者誤り率(EER)を12.5\%から5.3\%に減らし、RTFは1.02である。
低リソース環境での評価を支援するため,人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースした。
その結果,多言語音声における韻律的手がかりは,スケーラブルで非自己回帰的なS2STに信頼性のある足場を提供することがわかった。
関連論文リスト
- CBF-AFA: Chunk-Based Multi-SSL Fusion for Automatic Fluency Assessment [0.22499166814992438]
AFA(Automatic Fluency Assessment)は、特に非ネイティブ話者の音声リズム、ポーズ、拡散を捉える上で、依然として困難である。
本稿では, 音声, 韻律, 騒々しい音声モデリングにおいて, 相補的な強みのために選択された自己教師付き学習(SSL)モデルを統合するチャンクベースアプローチを提案する。
提案手法では,AvalinguoではF1スコアが2.8,Pearson相関が6.2,F1スコアが4.2,Pearsonポイントが4.0であった。
論文 参考訳(メタデータ) (2025-06-25T08:39:22Z) - Beyond Data Quantity: Key Factors Driving Performance in Multilingual Language Models [1.5703073293718952]
モデル性能を向上させるために、事前訓練データとモデルサイズとともに、重要な要因としてのトーケン類似性と国間類似性を考察した。
これらの洞察は、より公平で効果的な多言語言語モデルを開発するための貴重なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-17T03:05:26Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving Polish to English Neural Machine Translation with Transfer
Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。
OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。
実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T13:34:21Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文 参考訳(メタデータ) (2023-05-23T13:13:48Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Regularizing End-to-End Speech Translation with Triangular Decomposition
Agreement [27.87144563354033]
本稿では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングのための新しい正規化手法を提案する。
MuST-Cベンチマーク実験により,提案手法は最先端のE2E-STベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-12-21T05:24:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Investigating Monolingual and Multilingual BERTModels for Vietnamese
Aspect Category Detection [0.0]
本稿ではベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。
実験結果は、他の2つのデータセットよりもモノリンガルPhoBERTモデルの有効性を実証した。
我々の知識を最大限に活用するために,我々の研究はアスペクトカテゴリー検出タスクにおいて,様々な事前学習言語モデルを実行するための最初の試みである。
論文 参考訳(メタデータ) (2021-03-17T09:04:03Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。