論文の概要: CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing
- arxiv url: http://arxiv.org/abs/2508.15316v1
- Date: Thu, 21 Aug 2025 07:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.224925
- Title: CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing
- Title(参考訳): CUPE:言語に依存しない音声処理のための文脈レスユニバーサル音素エンコーダ
- Authors: Abdul Rehman, Jian-Jun Zhang, Xiaosong Yang,
- Abstract要約: CUPEは120ミリ秒でキー音素の機能をキャプチャする軽量モデルである。
CUPEは、すべての言語に共通する基本音響パターンを学習することで、競合する言語間性能を実現する。
- 参考スコア(独自算出の注目度): 5.466034990848432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal phoneme recognition typically requires analyzing long speech segments and language-specific patterns. Many speech processing tasks require pure phoneme representations free from contextual influence, which motivated our development of CUPE - a lightweight model that captures key phoneme features in just 120 milliseconds, about one phoneme's length. CUPE processes short, fixed-width windows independently and, despite fewer parameters than current approaches, achieves competitive cross-lingual performance by learning fundamental acoustic patterns common to all languages. Our extensive evaluation through supervised and self-supervised training on diverse languages, including zero-shot tests on the UCLA Phonetic Corpus, demonstrates strong cross-lingual generalization and reveals that effective universal speech processing is possible through modeling basic acoustic patterns within phoneme-length windows.
- Abstract(参考訳): 普遍的な音素認識は、通常、長い音声セグメントと言語固有のパターンを分析する必要がある。
多くの音声処理タスクは、文脈の影響を受けない純粋な音素表現を必要としており、CUPEの開発を動機付けている。
CUPEは、短い固定幅のウィンドウを独立に処理し、現在のアプローチよりもパラメータが少ないにもかかわらず、全ての言語に共通する基本音響パターンを学習することで、競合する言語間性能を実現する。
UCLA音声コーパスのゼロショットテストを含む多言語言語における教師付きおよび自己教師型訓練による広範囲な評価は、強い言語間一般化を示し、音素長ウィンドウ内の基本音響パターンをモデル化することで、効果的に普遍的な音声処理が可能であることを明らかにした。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Common Phone: A Multilingual Dataset for Robust Acoustic Modelling [13.930464898816652]
この研究は、MozillaのCommon Voiceプロジェクトを通じて76.000人以上のコントリビュータから記録された、ジェンダーバランスのとれた多言語コーパスであるCommon Phoneを紹介した。
音声の分節が自動生成され、約116時間の音声が濃縮される。
Wav2Vec 2.0音響モデルは、共通電話を用いて、音声記号認識を行い、生成された音素アノテーションの品質を検証するために訓練された。
論文 参考訳(メタデータ) (2022-01-15T19:02:46Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。