論文の概要: Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model
- arxiv url: http://arxiv.org/abs/2311.00301v1
- Date: Wed, 1 Nov 2023 05:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:44:56.876639
- Title: Detecting Syllable-Level Pronunciation Stress with A Self-Attention
Model
- Title(参考訳): 自己認識モデルによるSyllable-Level発音応力の検出
- Authors: Wang Weiying and Nakajima Akinori
- Abstract要約: 話し言葉の音節ごとのストレスレベルを知ることは、英語話者や学習者にとって重要である。
本稿では,話し言葉の各音節のストレスレベルを同定する自己注意モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One precondition of effective oral communication is that words should be
pronounced clearly, especially for non-native speakers. Word stress is the key
to clear and correct English, and misplacement of syllable stress may lead to
misunderstandings. Thus, knowing the stress level is important for English
speakers and learners. This paper presents a self-attention model to identify
the stress level for each syllable of spoken English. Various prosodic and
categorical features, including the pitch level, intensity, duration and type
of the syllable and its nuclei (the vowel of the syllable), are explored. These
features are input to the self-attention model, and syllable-level stresses are
predicted. The simplest model yields an accuracy of over 88% and 93% on
different datasets, while more advanced models provide higher accuracy. Our
study suggests that the self-attention model can be promising in stress-level
detection. These models could be applied to various scenarios, such as online
meetings and English learning.
- Abstract(参考訳): 効果的な口頭コミュニケーションの前提条件の一つは、特に非母語話者の場合、言葉は明確に発音されるべきである。
単語のストレスが英語の明瞭化と修正の鍵であり、音節のストレスのずれが誤解につながる可能性がある。
したがって、英語話者や学習者にとってストレスレベルを知ることは重要である。
本稿では,話し言葉の音節ごとのストレスレベルを同定する自己注意モデルを提案する。
音節のピッチレベル、強度、持続時間、タイプ、その核(音節の母音)など、様々な韻律的・カテゴリー的特徴を探求する。
これらの特徴は自己注意モデルに入力され、音節レベルのストレスが予測される。
最も単純なモデルは、異なるデータセットで88%と93%の精度を示し、より高度なモデルは高い精度を提供する。
本研究はストレスレベル検出において自己注意モデルが有望であることが示唆された。
これらのモデルは、オンラインミーティングや英語学習など、さまざまなシナリオに適用することができる。
関連論文リスト
- Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Exploring Automated Keyword Mnemonics Generation with Large Language Models via Overgenerate-and-Rank [4.383205675898942]
キーワード・ムネモニクス(英: Keywords mnemonics)は、単語を単語のキューを通じて記憶可能な関連性を通じて記憶する技法である。
そこで本稿では,大規模言語モデルに言語的手がかりを生成させる手法として,新しいオーバージェネレーション・アンド・ランク法を提案する。
以上の結果から, LLM生成のメネモニクスは, 画像性, コヒーレンス, 知覚的有用性の観点から, 人間生成のミネモニクスに匹敵するものであることが示唆された。
論文 参考訳(メタデータ) (2024-09-21T00:00:18Z) - Speaker Embeddings as Individuality Proxy for Voice Stress Detection [14.332772222772668]
話者の精神状態は音声を変調するため、認知的あるいは身体的負荷によって引き起こされるストレスを音声で検出することができる。
既存の音声ストレス検出ベンチマークでは,Hybrid BYOL-S自己教師モデルから抽出した音声の埋め込みが良好に動作することが示された。
本稿では,9つの言語グループと5つの異なるタイプのストレスから100人以上の話者を対象に訓練された音声ストレス検出の設計と開発について述べる。
論文 参考訳(メタデータ) (2023-06-09T14:11:07Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。