論文の概要: Speech-to-Text Translation with Phoneme-Augmented CoT: Enhancing Cross-Lingual Transfer in Low-Resource Scenarios
- arxiv url: http://arxiv.org/abs/2505.24691v1
- Date: Fri, 30 May 2025 15:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.027144
- Title: Speech-to-Text Translation with Phoneme-Augmented CoT: Enhancing Cross-Lingual Transfer in Low-Resource Scenarios
- Title(参考訳): 音素拡張CoTによる音声テキスト翻訳:低資源シナリオにおける言語間移動の促進
- Authors: Gerard I. Gállego, Oriol Pareras, Martí Cortada Garcia, Lucas Takanori, Javier Hernando,
- Abstract要約: 本稿では,音素表現をChain-of-Thoughtフレームワークに統合した音声テキスト翻訳(S2TT)手法を提案する。
中間段階として音素認識を導入することで、言語間変換を強化し、ラベル付き音声データを持たない言語でも翻訳が可能となる。
- 参考スコア(独自算出の注目度): 10.920534445874322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Speech-to-Text Translation (S2TT) approach that integrates phoneme representations into a Chain-of-Thought (CoT) framework to improve translation in low-resource and zero-resource settings. By introducing phoneme recognition as an intermediate step, we enhance cross-lingual transfer, enabling translation even for languages with no labeled speech data. Our system builds on a multilingual LLM, which we extend to process speech and phonemes. Training follows a curriculum learning strategy that progressively introduces more complex tasks. Experiments on multilingual S2TT benchmarks show that phoneme-augmented CoT improves translation quality in low-resource conditions and enables zero-resource translation, while slightly impacting high-resource performance. Despite this trade-off, our findings demonstrate that phoneme-based CoT is a promising step toward making S2TT more accessible across diverse languages.
- Abstract(参考訳): 我々は,低リソースおよびゼロリソース設定における翻訳を改善するために,音素表現をChain-of-Thought(CoT)フレームワークに統合する音声テキスト翻訳(S2TT)手法を提案する。
中間段階として音素認識を導入することで、言語間変換を強化し、ラベル付き音声データを持たない言語でも翻訳が可能となる。
本システムは,音声と音素の処理に拡張した多言語LLM上に構築する。
トレーニングは、より複雑なタスクを徐々に導入するカリキュラム学習戦略に従う。
多言語S2TTベンチマークの実験により、音素拡張CoTは低リソース条件下での翻訳品質を改善し、高リソース性能にわずかに影響を与えながらゼロリソース翻訳を可能にすることが示された。
このトレードオフにもかかわらず、我々の発見は、音素ベースのCoTが様々な言語でS2TTをより使いやすくするための有望なステップであることを示している。
関連論文リスト
- Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文 参考訳(メタデータ) (2023-06-01T15:19:06Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。