論文の概要: Benchmarking Prosody Encoding in Discrete Speech Tokens
- arxiv url: http://arxiv.org/abs/2508.11224v1
- Date: Fri, 15 Aug 2025 05:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.753794
- Title: Benchmarking Prosody Encoding in Discrete Speech Tokens
- Title(参考訳): 離散音声トークンにおける韻律符号化のベンチマーク
- Authors: Kentaro Onda, Satoru Fukayama, Daisuke Saito, Nobuaki Minematsu,
- Abstract要約: 本研究は, 韻律に対する感性に基づく韻律符号化に着目し, 離散トークンを設計するための実践的ガイドラインを提供することを目的とする。
特に、言語モデルでは、意味的内容だけでなく、韻律的特徴も反映する応答を理解し、生成することが期待されている。
- 参考スコア(独自算出の注目度): 13.60092490447892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, discrete tokens derived from self-supervised learning (SSL) models via k-means clustering have been actively studied as pseudo-text in speech language models and as efficient intermediate representations for various tasks. However, these discrete tokens are typically learned in advance, separately from the training of language models or downstream tasks. As a result, choices related to discretization, such as the SSL model used or the number of clusters, must be made heuristically. In particular, speech language models are expected to understand and generate responses that reflect not only the semantic content but also prosodic features. Yet, there has been limited research on the ability of discrete tokens to capture prosodic information. To address this gap, this study conducts a comprehensive analysis focusing on prosodic encoding based on their sensitivity to the artificially modified prosody, aiming to provide practical guidelines for designing discrete tokens.
- Abstract(参考訳): 近年,k-meansクラスタリングによる自己教師付き学習(SSL)モデルから派生した離散トークンが,言語モデルにおける擬似テキストとして,様々なタスクの効率的な中間表現として活発に研究されている。
しかしながら、これらの離散トークンは通常、言語モデルや下流タスクのトレーニングとは別に、事前に学習されている。
結果として、SSLモデルやクラスタ数など、離散化に関連する選択をヒューリスティックに行う必要がある。
特に、言語モデルでは、意味的内容だけでなく、韻律的特徴も反映する応答を理解し、生成することが期待されている。
しかし、離散トークンが韻律情報を取得する能力について限定的な研究がなされている。
このギャップに対処するために, 人工的に修飾された韻律に対する感度に基づく韻律符号化に着目した総合的な分析を行い, 離散トークンの設計のための実践的ガイドラインを提供する。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models [46.298114175792584]
様々な意味的タスクにおける離散的特徴と連続的特徴の公平かつ徹底的な比較を示す。
連続的な特徴は一般に離散トークンよりも優れており、特に微粒な意味理解を必要とするタスクにおいて顕著である。
論文 参考訳(メタデータ) (2024-11-13T16:20:20Z) - Do Discrete Self-Supervised Representations of Speech Capture Tone Distinctions? [13.197705351799215]
我々は,マンダリンとヨルバの2つの例言語において,離散記号が声調を適切に捉えているかどうかを評価する。
離散シンボルを使用すると、言語仕様のSSLモデルであっても、トーン情報が著しく失われることがわかった。
論文 参考訳(メタデータ) (2024-10-25T19:13:25Z) - A Comparative Study of Continuous Sign Language Recognition Techniques [1.534667887016089]
CSLR(Continuous Sign Language Recognition)は、ポーズなしで連続的に実行される手話ジェスチャーのシーケンスの解釈に焦点を当てる。
本研究では,近年の深層学習C SLR手法を実証的に評価し,その性能を様々なデータセットや手話で評価する。
論文 参考訳(メタデータ) (2024-06-18T07:51:44Z) - How Should We Extract Discrete Audio Tokens from Self-Supervised Models? [15.03039528965825]
本稿では,識別的および生成的タスクにまたがるセマンティックトークンの最適構成について検討する。
複数のSSL層にまたがるユニバーサルヴォコーダをトレーニングするためのスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-15T20:43:07Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。