論文の概要: Probing neural audio codecs for distinctions among English nuclear tunes
- arxiv url: http://arxiv.org/abs/2603.14035v1
- Date: Sat, 14 Mar 2026 17:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.563518
- Title: Probing neural audio codecs for distinctions among English nuclear tunes
- Title(参考訳): 英語核音の区別のためのニューラルオーディオコーデックの提案
- Authors: Juan Pablo Vigneaux, Jennifer Cole,
- Abstract要約: 我々は、Cole et al. (2023) のラベル付き音声データを用いて、英語の句末節(核)を国歌に特徴付けるピッチ軌跡が、これらのパターンに含まれるかどうかを訓練する。
線形プローブは、音韻的に特定された8つの核音と単調ピッチのアクセントを区別する際に、未定量の潜伏語またはいくつかのコードワードで訓練された。
- 参考スコア(独自算出の注目度): 5.783140154238961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art spoken dialogue models (Défossez et al. 2024; Schalkwyk et al. 2025) use neural audio codecs to "tokenize" audio signals into a lower-frequency stream of vectorial latent representations, each quantized using a hierarchy of vector codebooks. A transformer layer allows these representations to reflect some time- and context-dependent patterns. We train probes on labeled audio data from Cole et al. (2023) to test whether the pitch trajectories that characterize English phrase-final (nuclear) intonational tunes are among these patterns. Results: Linear probes trained on the unquantized latents or some of the associated codewords yield above-chance accuracy in distinguishing eight phonologically specified nuclear tunes with monotonal pitch accents (top average test accuracy (TATA): 0.31) and the five clusters of these tunes that are robust in human speech production and perception (TATA: 0.45). Greater accuracy (TATAs: 0.74-0.89) is attained for binary distinctions between classes of rising vs. falling tunes, respectively used for questions and assertions. Information about tunes is spread among all codebooks, which calls into question a distinction between 'semantic' and 'acoustic' codebooks found in the literature. Accuracies improve with nonlinear probes, but discrimination among the five clusters remains far from human performance, suggesting a fundamental limitation of current codecs.
- Abstract(参考訳): 最先端の音声対話モデル(Défossez et al 2024; Schalkwyk et al 2025)は、ニューラルオーディオコーデックを使用して、音声信号をベクトル潜在表現の低周波ストリームに"トークン化"する。
トランスフォーマー層は、これらの表現が時間とコンテキストに依存したパターンを反映することを可能にする。
我々は、Cole et al (2023) のラベル付き音声データを用いて、英語の句末節(核)を国歌に特徴付けるピッチ軌跡が、これらのパターンに含まれるかどうかを訓練する。
結果: 音韻的に特定された8つの核音と音韻的ピッチアクセント(トップ平均テスト精度(TATA)0.31)を区別し, 人間の発声・知覚に頑健な5つの音のクラスタを識別する。
より高い精度 (TATAs: 0.74-0.89) は、それぞれ質問やアサーションに使用される上昇する音節と落下する音節のクラスの間の二分法で達成される。
調律に関する情報はすべてのコードブックに広まり、文献に見られる「セマンティック」と「アコースティック」の区別を疑問視する。
非線形プローブにより精度は向上するが、5つのクラスタ間の識別は人間のパフォーマンスからは程遠いままであり、現在のコーデックの基本的な制限が示唆されている。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Latent-Domain Predictive Neural Speech Coding [33.458968443594415]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
音声データセットの主観的な結果は、低レイテンシでは、提案したTF-Codecは1kbpsで9kbpsよりも大幅に品質が向上することを示している。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。