Fugu-MT 論文翻訳(概要): ProKWS: Personalized Keyword Spotting via Collaborative Learning of Phonemes and Prosody

論文の概要: ProKWS: Personalized Keyword Spotting via Collaborative Learning of Phonemes and Prosody

arxiv url: http://arxiv.org/abs/2603.18024v1
Date: Thu, 05 Mar 2026 14:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.397206
Title: ProKWS: Personalized Keyword Spotting via Collaborative Learning of Phonemes and Prosody
Title（参考訳）: ProKWS:Personalized Keyword Spotting by Collaborative Learning of Phonemes and Prosody
Authors: Jianan Pan, Yuanming Zhang, Kejie Huang,
Abstract要約: ProKWSは、微粒な音素学習とパーソナライズされた韻律モデリングを統合する新しいフレームワークである。 ProKWSは、標準ベンチマークの最先端モデルに匹敵する、非常に競争力のあるパフォーマンスを提供する。
参考スコア（独自算出の注目度）: 9.903404890572086
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current keyword spotting systems primarily use phoneme-level matching to distinguish confusable words but ignore user-specific pronunciation traits like prosody (intonation, stress, rhythm). This paper presents ProKWS, a novel framework integrating fine-grained phoneme learning with personalized prosody modeling. We design a dual-stream encoder where one stream derives robust phonemic representations through contrastive learning, while the other extracts speaker-specific prosodic patterns. A collaborative fusion module dynamically combines phonemic and prosodic information, enhancing adaptability across acoustic environments. Experiments show ProKWS delivers highly competitive performance, comparable to state-of-the-art models on standard benchmarks and demonstrates strong robustness for personalized keywords with tone and intent variations.
Abstract（参考訳）: 現在のキーワードスポッティングシステムは、主に音素レベルのマッチングを使用して、難解な単語を区別するが、韻律(イントネーション、ストレス、リズム)のようなユーザー固有の発音特性を無視する。本稿では,詳細な音素学習とパーソナライズされた韻律モデリングを組み合わせた新しいフレームワークProKWSを提案する。両ストリームエンコーダを設計し、一方のストリームはコントラスト学習によりロバストな音声表現を導出し、他方のストリームは話者固有の韻律パターンを抽出する。協調融合モジュールは音韻情報と韻律情報を動的に結合し、音環境間の適応性を向上させる。実験によると、ProKWSは標準ベンチマークの最先端モデルに匹敵する高い競争力を発揮し、トーンとインテントのバリエーションを持つパーソナライズされたキーワードに対して強い堅牢性を示している。

関連論文リスト

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling [14.953695326450001]
対話型階層型ニューラルアーキテクチャを用いた多面発音フィードバックモデルであるMuFFINを紹介する。特徴空間における音素間のニュアンスな区別をよりよく捉えるために、新しい音素コントラストの順序規則化機構が提案される。本研究では,音素固有の変化を伴う音素の出力を摂動させるための,シンプルで効果的な学習目標を設計する。
論文参考訳（メタデータ） (2025-10-06T15:54:55Z)
Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Generative Adversarial Training for Text-to-Speech Synthesis Based on Raw Phonetic Input and Explicit Prosody Modelling [0.36868085124383626]
生成的対角学習を用いたエンドツーエンド音声合成システムについて述べる。音素・音素変換のためのVocoderを明示的な音韻・ピッチ・持続時間モデルを用いて訓練する。
論文参考訳（メタデータ） (2023-10-14T18:15:51Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Controllable speech synthesis by learning discrete phoneme-level prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文参考訳（メタデータ） (2022-11-29T15:43:36Z)
Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文参考訳（メタデータ） (2021-07-27T02:43:57Z)
STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。 STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文参考訳（メタデータ） (2020-11-23T13:29:16Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。