論文の概要: Prosodic Structure Beyond Lexical Content: A Study of Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2506.02584v1
- Date: Tue, 03 Jun 2025 08:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.400437
- Title: Prosodic Structure Beyond Lexical Content: A Study of Self-Supervised Learning
- Title(参考訳): 語彙的内容を超えた韻律的構造:自己指導型学習の研究
- Authors: Sarenne Wallbridge, Christoph Minixhofer, Catherine Lai, Peter Bell,
- Abstract要約: 本研究は自己教師型学習を用いて韻律の音響的相関における構造物の時間的粒度について検討する。
様々な知覚ラベルにまたがる実験は、変化しないピッチ、エネルギー、および音声活動の特徴に対して、強い相対的な利得を示す。
- 参考スコア(独自算出の注目度): 14.719990606300804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People exploit the predictability of lexical structures during text comprehension. Though predictable structure is also present in speech, the degree to which prosody, e.g. intonation, tempo, and loudness, contributes to such structure independently of the lexical content is unclear. This study leverages self-supervised learning (SSL) to examine the temporal granularity of structures in the acoustic correlates of prosody. Representations from our proposed Masked Prosody Model can predict perceptual labels dependent on local information, such as word boundaries, but provide the most value for labels involving longer-term structures, like emotion recognition. Probing experiments across various perceptual labels show strong relative gains over untransformed pitch, energy, and voice activity features. Our results reveal the importance of SSL training objective timescale and highlight the value of complex SSL-encoded structures compared to more constrained classical structures.
- Abstract(参考訳): 人々はテキスト理解中に語彙構造の予測可能性を利用する。
予測可能な構造は音声にも存在するが、韻律、egの音調、テンポ、および大声の程度は、語彙の内容とは無関係に、そのような構造に寄与する。
本研究では,自己教師付き学習(SSL)を活用し,韻律の音響的相関関係における構造物の時間的粒度について検討する。
提案したMasked Prosody Modelの表現は、単語境界などの局所的な情報に依存する知覚ラベルを予測できるが、感情認識のような長期的構造を含むラベルには最も価値がある。
様々な知覚ラベルにまたがる実験は、変化しないピッチ、エネルギー、および音声活動の特徴に対して、強い相対的な利得を示す。
以上の結果から,SSLトレーニング対象の時間スケールの重要性を明らかにし,より制約のある古典的構造に比べて複雑なSSL符号化構造の価値を強調した。
関連論文リスト
- SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT [45.729377551100676]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Structural and Statistical Texture Knowledge Distillation for Semantic Segmentation [72.19108372163868]
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
構造的テクスチャ知識のために,低レベルの特徴を分解するContourlet Decomposition Module (CDM)を導入する。
本稿では, 統計的テクスチャ知識を適応的に抽出し, 強化するDenoized Texture Intensity Equalization Module (DTIEM)を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:01:11Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Probing for Constituency Structure in Neural Language Models [11.359403179089817]
我々は、Penn Treebank (PTB)で表される構成構造に焦点をあてる。
4つの事前訓練されたトランスフォーマーLMが,我々の探索作業において高い性能を得ることがわかった。
完全な選挙区木をLM表現から線形に分離できることを示す。
論文 参考訳(メタデータ) (2022-04-13T07:07:37Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。