論文の概要: POWSM: A Phonetic Open Whisper-Style Speech Foundation Model
- arxiv url: http://arxiv.org/abs/2510.24992v1
- Date: Tue, 28 Oct 2025 21:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.801858
- Title: POWSM: A Phonetic Open Whisper-Style Speech Foundation Model
- Title(参考訳): POWSM: 音声のオープンなwhisperスタイルの音声基礎モデル
- Authors: Chin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David Mortensen, Shinji Watanabe,
- Abstract要約: POWSMは、複数の電話関連のタスクを共同で実行できる最初の統合フレームワークである。
私たちのトレーニングデータ、コード、モデルは、オープンサイエンスを育むためにリリースされています。
- 参考スコア(独自算出の注目度): 50.73202227472358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in spoken language processing have led to substantial progress in phonetic tasks such as automatic speech recognition (ASR), phone recognition (PR), grapheme-to-phoneme conversion (G2P), and phoneme-to-grapheme conversion (P2G). Despite their conceptual similarity, these tasks have largely been studied in isolation, each relying on task-specific architectures and datasets. In this paper, we introduce POWSM (Phonetic Open Whisper-style Speech Model), the first unified framework capable of jointly performing multiple phone-related tasks. POWSM enables seamless conversion between audio, text (graphemes), and phones, opening up new possibilities for universal and low-resource speech processing. Our model outperforms or matches specialized PR models of similar size (Wav2Vec2Phoneme and ZIPA) while jointly supporting G2P, P2G, and ASR. Our training data, code and models are released to foster open science.
- Abstract(参考訳): 近年の音声言語処理の進歩により、音声認識(ASR)、音声認識(PR)、音素変換(G2P)、音素変換(P2G)などの音声処理が大幅に進歩している。
概念的類似性にもかかわらず、これらのタスクは独立して研究されており、それぞれがタスク固有のアーキテクチャやデータセットに依存している。
本稿では,Phonetic Open Whisperスタイルの音声モデル(Phonetic Open Whisperスタイルの音声モデル)を紹介する。
POWSMは音声、テキスト(グラフ)、電話のシームレスな変換を可能にし、ユニバーサルおよび低リソース音声処理の新たな可能性を開く。
我々のモデルは、G2P、P2G、ASRを共同でサポートしながら、類似サイズの特殊PRモデル(Wav2Vec2Phoneme、ZIPA)より優れているか、あるいは適合する。
私たちのトレーニングデータ、コード、モデルは、オープンサイエンスを育むためにリリースされています。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Text-Free Prosody-Aware Generative Spoken Language Modeling [46.19240899818964]
pGSLM(Prosody-aware Generative Speech Language Model)を提案する。
音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。
実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-09-07T18:03:21Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。