論文の概要: Word stress in self-supervised speech models: A cross-linguistic comparison
- arxiv url: http://arxiv.org/abs/2507.04738v1
- Date: Mon, 07 Jul 2025 08:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.321156
- Title: Word stress in self-supervised speech models: A cross-linguistic comparison
- Title(参考訳): 自己教師型音声モデルにおける単語ストレス:言語間比較
- Authors: Martijn Bentum, Louis ten Bosch, Tomas O. Lentz,
- Abstract要約: 自己教師型音声モデル(S3M)で学習した単語のストレス表現について検討する。
5つの異なる言語に対する単語ストレスのS3M表現について検討する。
- 参考スコア(独自算出の注目度): 6.552278017383513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we study word stress representations learned by self-supervised speech models (S3M), specifically the Wav2vec 2.0 model. We investigate the S3M representations of word stress for five different languages: Three languages with variable or lexical stress (Dutch, English and German) and two languages with fixed or demarcative stress (Hungarian and Polish). We train diagnostic stress classifiers on S3M embeddings and show that they can distinguish between stressed and unstressed syllables in read-aloud short sentences with high accuracy. We also tested language-specificity effects of S3M word stress. The results indicate that the word stress representations are language-specific, with a greater difference between the set of variable versus the set of fixed stressed languages.
- Abstract(参考訳): 本稿では,自己教師型音声モデル(S3M),特にWav2vec 2.0モデルによって学習された単語のストレス表現について検討する。
単語ストレスのS3M表現について検討する: 可変または語彙ストレス(オランダ語,英語,ドイツ語)の3言語と,固定あるいは区切りストレス(ハンガリー語,ポーランド語)の2言語である。
本研究は,S3M埋め込みの診断的ストレス分類器を訓練し,読み上げ音節におけるストレス音節と非ストレス音節の区別を高精度に行えることを示す。
また,S3M単語ストレスの言語特異的効果についても検討した。
その結果、単語のストレス表現は言語固有のものであり、変数の集合と固定されたストレスのある言語の集合との差が大きいことが示唆された。
関連論文リスト
- StressTest: Can YOUR Speech LM Handle the Stress? [20.802090523583196]
センセントストレス(Sentence stress)とは、音声の発声の中で特定の単語に重点を置いて、アイデアを強調したり、対比させたり、あるいは新しい情報を導入することを指す。
近年の音声認識言語モデル(SLM)の進歩により,音声の直接処理が可能になった。
意味形成や話者意図形成において文ストレスが重要な役割を担っているにもかかわらず、そのようなモデルの評価や開発において、ほとんど見落とされ続けている。
論文 参考訳(メタデータ) (2025-05-28T18:32:56Z) - WHISTRESS: Enriching Transcriptions with Sentence Stress Detection [20.802090523583196]
音声言語における話者意図の伝達には, 文ストレスが不可欠である。
WHISTRESSは,文のストレス検出による書き起こしシステム拡張のためのアライメントフリーアプローチである。
TINYSTRESS-15KでWHISTRESSをトレーニングし、いくつかの競争ベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-05-25T11:45:08Z) - Are Language Models Agnostic to Linguistically Grounded Perturbations? A Case Study of Indic Languages [47.45957604683302]
本研究では,事前訓練された言語モデルが言語的に基盤付けられた攻撃に非依存であるか否かを検討する。
以上の結果から, PLMは非言語的攻撃と比較して言語的摂動の影響を受けやすいが, PLMは言語的攻撃に対する感受性がわずかに低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-14T12:10:38Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model [0.0]
話し言葉の音節ごとのストレスレベルを知ることは、英語話者や学習者にとって重要である。
本稿では,話し言葉の各音節のストレスレベルを同定する自己注意モデルを提案する。
論文 参考訳(メタデータ) (2023-11-01T05:05:49Z) - Speaker Embeddings as Individuality Proxy for Voice Stress Detection [14.332772222772668]
話者の精神状態は音声を変調するため、認知的あるいは身体的負荷によって引き起こされるストレスを音声で検出することができる。
既存の音声ストレス検出ベンチマークでは,Hybrid BYOL-S自己教師モデルから抽出した音声の埋め込みが良好に動作することが示された。
本稿では,9つの言語グループと5つの異なるタイプのストレスから100人以上の話者を対象に訓練された音声ストレス検出の設計と開発について述べる。
論文 参考訳(メタデータ) (2023-06-09T14:11:07Z) - A Cross-Linguistic Pressure for Uniform Information Density in Word
Order [79.54362557462359]
実数列が反実数列よりも大きな情報均一性をもたらすかどうかを計算モデルを用いて検証する。
SVO言語の中では、実語順は逆語順よりも一様である。
言語的に不可解な反実順序のみが、実際の順序の均一性を超えている。
論文 参考訳(メタデータ) (2023-06-06T14:52:15Z) - Using Open-Ended Stressor Responses to Predict Depressive Symptoms
across Demographics [22.476706522778994]
本研究では,ストレスに関するオープンエンドテキスト応答と,性別・人種・民族間の抑うつ症状との関連について検討した。
我々は、トピックモデルやその他のNLPツールを使用して、人口集団間でのストレスを報告する際に、テーマと語彙の違いを見つける。
抑うつ症状を予測し,ストレスと抑うつの関係を見出すために,自己報告型ストレスダーを用いた言語モデルを訓練した。
論文 参考訳(メタデータ) (2022-11-15T06:34:58Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - Pragmatic information in translation: a corpus-based study of tense and
mood in English and German [70.3497683558609]
文法的時制とムードは自然言語処理(NLP)研究において考慮すべき重要な言語現象である。
我々は翻訳における英語とドイツ語の時制とムードの対応について考察する。
特に重要なのは、ルールベース、フレーズベース統計およびニューラルマシン翻訳における時制とムードをモデル化することである。
論文 参考訳(メタデータ) (2020-07-10T08:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。