論文の概要: How Does a Deep Neural Network Look at Lexical Stress?
- arxiv url: http://arxiv.org/abs/2508.07229v1
- Date: Sun, 10 Aug 2025 08:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.766431
- Title: How Does a Deep Neural Network Look at Lexical Stress?
- Title(参考訳): ディープニューラルネットワークはどのようにして語彙的ストレスを見るのか?
- Authors: Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet,
- Abstract要約: 英語の非音節単語のデータセットは、読み書き音声と自発音声から自動的に構築される。
CNNアーキテクチャは、最小のストレスペアを欠いた非音節単語のスペクトル表現から、ストレス位置を予測するために訓練された。
特徴特異的な関連分析を提案し,その結果から, 発声母音の第1および第2フォルマントの影響を強く受けていることが示唆された。
- 参考スコア(独自算出の注目度): 7.885813393534717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacking minimal stress pairs (e.g., initial stress WAllet, final stress exTEND), achieving up to 92% accuracy on held-out test data. Layerwise Relevance Propagation (LRP), a technique for CNN interpretability analysis, revealed that predictions for held-out minimal pairs (PROtest vs. proTEST ) were most strongly influenced by information in stressed versus unstressed syllables, particularly the spectral properties of stressed vowels. However, the classifiers also attended to information throughout the word. A feature-specific relevance analysis is proposed, and its results suggest that our best-performing classifier is strongly influenced by the stressed vowel's first and second formants, with some evidence that its pitch and third formant also contribute. These results reveal deep learning's ability to acquire distributed cues to stress from naturally occurring data, extending traditional phonetic work based around highly controlled stimuli.
- Abstract(参考訳): 音声処理の成功にもかかわらず、ニューラルネットワークはしばしばブラックボックスとして動作する。
本研究は語彙的ストレスの文脈でこの問題を考察する。
英語の非音節単語のデータセットは、読み書き音声と自発音声から自動的に構築される。
いくつかの畳み込みニューラルネットワーク(CNN)アーキテクチャは、最小のストレスペア(例えば、初期ストレスWAllet、最終ストレスexTEND)を持たない非音節語のスペクトル表現から、最大92%の精度でストレス位置を予測するために訓練された。
CNN解釈可能性分析の手法であるLayerwise Relevance Propagation (LRP) は、持続最小ペア(PROtest vs. proTEST )の予測が、強勢音節と非強勢音節の情報、特に強勢母音のスペクトル特性に最も強く影響していることを明らかにする。
しかし、分類者も全語にわたって情報に参画した。
特徴特異的な関連分析を提案し,その結果から, 発声母音の第1フォルマントと第2フォルマントの影響が強く, ピッチと第3フォルマントも寄与することが示唆された。
これらの結果から、自然発生データからストレスを受けるための分散手がかりを深層学習が獲得できることが明らかとなり、高度に制御された刺激に基づく従来の音声作業が拡張された。
関連論文リスト
- StressTest: Can YOUR Speech LM Handle the Stress? [20.802090523583196]
センセントストレス(Sentence stress)とは、音声の発声の中で特定の単語に重点を置いて、アイデアを強調したり、対比させたり、あるいは新しい情報を導入することを指す。
近年の音声認識言語モデル(SLM)の進歩により,音声の直接処理が可能になった。
意味形成や話者意図形成において文ストレスが重要な役割を担っているにもかかわらず、そのようなモデルの評価や開発において、ほとんど見落とされ続けている。
論文 参考訳(メタデータ) (2025-05-28T18:32:56Z) - WHISTRESS: Enriching Transcriptions with Sentence Stress Detection [20.802090523583196]
音声言語における話者意図の伝達には, 文ストレスが不可欠である。
WHISTRESSは,文のストレス検出による書き起こしシステム拡張のためのアライメントフリーアプローチである。
TINYSTRESS-15KでWHISTRESSをトレーニングし、いくつかの競争ベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-05-25T11:45:08Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Hybrid Handcrafted and Learnable Audio Representation for Analysis of
Speech Under Cognitive and Physical Load [17.394964035035866]
音声におけるタスク負荷検出のための5つのデータセットを提案する。
音声記録は、ボランティアのコホートに認知的ストレスまたは身体的ストレスが引き起こされたとして収集された。
このデータセットを用いて、新たな自己教師型音声表現の設計と評価を行った。
論文 参考訳(メタデータ) (2022-03-30T19:43:21Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - A Tale of Two Lexica Testing Computational Hypotheses with Deep
Convolutional Neural Networks [0.0]
2つの並列ワードフォームストア(背側および腹側処理ストリーム)の存在を調査します。
仮説をテストするために、2つの深層畳み込みニューラルネットワーク(CNN)を作成しました。
私たちの結果は、腹側および背側処理ストリームの異なる処理要求が複数のレキシカの開発に計算圧力を課すという仮説と一致しています。
論文 参考訳(メタデータ) (2021-04-13T15:03:14Z) - Enhanced Aspect-Based Sentiment Analysis Models with Progressive
Self-supervised Attention Learning [103.0064298630794]
アスペクトベース感情分析(absa)では、多くのニューラルモデルに感情予測に対する各文脈単語の寄与を定量化するための注意機構が備わっている。
注目ABSAモデルに対する自己監督型注意学習の進歩的アプローチを提案する。
提案手法を3つの最先端の神経ABSAモデルに統合する。
論文 参考訳(メタデータ) (2021-03-05T02:50:05Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。