論文の概要: Analysing the Language of Neural Audio Codecs
- arxiv url: http://arxiv.org/abs/2509.01390v1
- Date: Mon, 01 Sep 2025 11:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.665857
- Title: Analysing the Language of Neural Audio Codecs
- Title(参考訳): ニューラルオーディオコーデックの言語解析
- Authors: Joonyong Park, Shinnosuke Takamichi, David M. Chan, Shunsuke Kando, Yuki Saito, Hiroshi Saruwatari,
- Abstract要約: 本研究では,ニューラルオーディオコーデック(NAC)の統計的および言語学的特性の比較分析を行った。
各種NACモデルにより生成された離散音声トークンについて検討し,Zipfの法則やHeapsの法則などの言語統計法則の遵守性を検討した。
結果,NACトークン,特に3グラムは言語様の統計パターンを示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 40.627503339237116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study presents a comparative analysis of the statistical and linguistic properties of neural audio codecs (NACs). We investigate discrete speech tokens produced by various NAC models, examining their adherence to linguistic statistical laws such as Zipf's law and Heaps' law, as well as their entropy and redundancy. To assess how these token-level properties relate to semantic and acoustic preservation in synthesized speech, we evaluate intelligibility using error rates of automatic speech recognition, and quality using the UTMOS score. Our results reveal that NAC tokens, particularly 3-grams, exhibit language-like statistical patterns. Moreover, these properties, together with measures of information content, are found to correlate with improved performances in speech recognition and resynthesis tasks. These findings offer insights into the structure of NAC token sequences and inform the design of more effective generative speech models.
- Abstract(参考訳): 本研究では,ニューラルオーディオコーデック(NAC)の統計的および言語学的特性の比較分析を行った。
本研究では,様々なNACモデルが生成する離散音声トークンについて検討し,Zipfの法則やHeapsの法則などの言語統計法則,エントロピーや冗長性を検証した。
これらのトークンレベルの特性が合成音声の意味的・音響的保存とどのように関連しているかを評価するために,自動音声認識の誤り率とUTMOSスコアを用いた品質を用いて,インテリジェンスの評価を行った。
その結果,NACトークン,特に3グラムは言語様の統計パターンを示すことがわかった。
さらに,これらの特性は,情報内容の尺度とともに,音声認識や再生タスクの性能向上と相関することがわかった。
これらの結果はNACトークンシーケンスの構造に関する洞察を与え、より効果的な生成音声モデルの設計を通知する。
関連論文リスト
- Factorized RVQ-GAN For Disentangled Speech Tokenization [34.73812744103814]
本稿では,そのボトルネックを1つのモデルで3つの言語レベル(音響,音声,語彙)に分解する統合型ニューラル音声エンコーダを提案する。
英語と多言語のデータの実験により、HACの分解されたボトルネックは非絡み合いのトークン集合をもたらすことが示された。
定量的評価は,HACが自然性を保持し,言語情報を提供することを確認した。
論文 参考訳(メタデータ) (2025-06-18T13:36:34Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。