論文の概要: Emphasis Sensitivity in Speech Representations
- arxiv url: http://arxiv.org/abs/2508.11566v1
- Date: Fri, 15 Aug 2025 16:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.142115
- Title: Emphasis Sensitivity in Speech Representations
- Title(参考訳): 音声表現における強調感性
- Authors: Shaun Cassini, Thomas Hain, Anton Ragni,
- Abstract要約: 本稿では,2つの中性表現と強調された単語表現の相違として強調する残差に基づくフレームワークを提案する。
自己教師付き音声モデルの解析により,これらの残差が持続時間変化と強く相関し,単語識別予測の精度が低いことが示された。
ASRの微調整モデルでは、残余は事前訓練されたモデルよりも最大50%コンパクトな部分空間を占有する。
- 参考スコア(独自算出の注目度): 19.211263411383623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates whether modern speech models are sensitive to prosodic emphasis - whether they encode emphasized and neutral words in systematically different ways. Prior work typically relies on isolated acoustic correlates (e.g., pitch, duration) or label prediction, both of which miss the relational structure of emphasis. This paper proposes a residual-based framework, defining emphasis as the difference between paired neutral and emphasized word representations. Analysis on self-supervised speech models shows that these residuals correlate strongly with duration changes and perform poorly at word identity prediction, indicating a structured, relational encoding of prosodic emphasis. In ASR fine-tuned models, residuals occupy a subspace up to 50% more compact than in pre-trained models, further suggesting that emphasis is encoded as a consistent, low-dimensional transformation that becomes more structured with task-specific learning.
- Abstract(参考訳): 本研究は,現代音声モデルが韻律強調に敏感であるか否かを検討する。
先行研究は、通常、孤立した音響的相関(例えば、ピッチ、持続時間)やラベル予測に依存しており、どちらも強調される関係構造を欠いている。
本稿では,2つの中性表現と強調された単語表現の相違として強調する残差に基づくフレームワークを提案する。
自己教師付き音声モデルの解析では、これらの残差が持続時間変化と強く相関し、単語の同一性予測が不十分であることが示され、韻律強調の構造化されたリレーショナルエンコーディングが示される。
ASRの微調整モデルでは、残差は事前訓練されたモデルよりも最大50%コンパクトな部分空間を占有しており、さらに強調はタスク固有の学習によってより構造化される一貫した低次元変換として符号化されていることを示唆している。
関連論文リスト
- On the Geometry of Semantics in Next-token Prediction [27.33243506775655]
現代の言語モデルは、次世代の予測によってのみ訓練されているにもかかわらず、言語的な意味を捉えている。
本研究では,この概念的にシンプルな学習目標が,潜在意味概念と文法概念を抽出し,符号化するモデルにどのように寄与するかを検討する。
我々の研究は、分布意味論、神経崩壊幾何学、ニューラルネットワークトレーニングのダイナミクスを橋渡しし、NTPの暗黙のバイアスがどのように言語モデルにおける意味表現の出現を形作るかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - Residual Speech Embeddings for Tone Classification: Removing Linguistic Content to Enhance Paralinguistic Analysis [2.0499240875882]
本稿では,言語コンテンツからパラ言語的特徴を引き離す手法を提案する。
本手法を複数の自己教師型音声埋め込みに適用して評価し,残差埋め込みがトーン分類性能を著しく向上させることを示した。
これらの知見は、感情分析、話者特性解析、パラ言語音声処理における残留埋め込みの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-26T18:32:15Z) - Word-specific tonal realizations in Mandarin [0.9249657468385781]
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾・マンダリン自発会話のコーパスに基づいて,従来確立されていたすべての単語形式関連予測器よりも,単語型が音素認識の強力な予測器であることが示される。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチ輪郭が保持データ上で50%の精度で単語タイプを予測することを示す。
論文 参考訳(メタデータ) (2024-05-11T13:00:35Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - High-order Semantic Role Labeling [86.29371274587146]
本稿では,ニューラルセマンティックロールラベリングモデルのための高階グラフ構造を提案する。
これにより、モデルは孤立述語-引数対だけでなく、述語-引数対間の相互作用も明示的に考慮することができる。
CoNLL-2009ベンチマークの7つの言語に対する実験結果から、高次構造学習技術は強力なSRLモデルに有益であることが示された。
論文 参考訳(メタデータ) (2020-10-09T15:33:54Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。