論文の概要: Speech Codec Probing from Semantic and Phonetic Perspectives
- arxiv url: http://arxiv.org/abs/2603.10371v1
- Date: Wed, 11 Mar 2026 03:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.76474
- Title: Speech Codec Probing from Semantic and Phonetic Perspectives
- Title(参考訳): 意味的・音声的視点から見た音声コーデックの探索
- Authors: Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth Narayanan,
- Abstract要約: 音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
- 参考スコア(独自算出の注目度): 49.01048570474675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech tokenizers are essential for connecting speech to large language models (LLMs) in multimodal systems. These tokenizers are expected to preserve both semantic and acoustic information for downstream understanding and generation. However, emerging evidence suggests that what is termed "semantic" in speech representations does not align with text-derived semantics: a mismatch that can degrade multimodal LLM performance. In this paper, we systematically analyze the information encoded by several widely used speech tokenizers, disentangling their semantic and phonetic content through word-level probing tasks, layerwise representation analysis, and cross-modal alignment metrics such as CKA. Our results show that current tokenizers primarily capture phonetic rather than lexical-semantic structure, and we derive practical implications for the design of next-generation speech tokenization methods.
- Abstract(参考訳): 音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
これらのトークンーザは、下流の理解と生成のための意味情報と音響情報の両方を保存することが期待されている。
しかし、音声表現において「意味論的」と呼ばれるものは、テキスト由来の意味論(マルチモーダルLLM性能を劣化させるミスマッチ)と一致していないことが、新たな証拠として示唆されている。
本稿では,複数の広く使用されている音声トークン作成者によって符号化された情報を体系的に解析し,単語レベルの探索タスク,階層的表現分析,CKAなどの相互モーダルアライメントメトリクスを通じて意味的・音声的内容の分離を行う。
この結果から,従来のトークン化手法は語彙-意味構造ではなく音素を主に捉えており,次世代の音声トークン化手法の設計における実践的意味が示唆された。
関連論文リスト
- FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs [18.376715479210603]
音声トークン化は、離散表現を可能にし、音声言語モデリングを容易にする。
本研究では,FuseCodecを導入し,音響的,意味的,文脈的表現を強力な相互アライメントとグローバルインフォメーション・インフォメーションを通じて統合する。
FuseCodecは、EnCodec、SpeechTokenizer、DACを上回り、転写精度、知覚的品質、インテリジェンス、話者類似性において、LibriSpeechの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-14T20:35:36Z) - Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling [22.8588553114451]
テキストレス音声言語モデル(英語: Textless Speech Language Model、SLM)は、テキストの監督に依存しない音声の生成モデルである。
本稿では,意味トークンと音響フレームの連続実数値表現を生成することで,言語情報と音響情報を共同でモデル化することを提案する。
論文 参考訳(メタデータ) (2025-08-12T21:25:37Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。