論文の概要: Assessing the Impact of Anisotropy in Neural Representations of Speech: A Case Study on Keyword Spotting
- arxiv url: http://arxiv.org/abs/2506.11096v1
- Date: Fri, 06 Jun 2025 08:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.454438
- Title: Assessing the Impact of Anisotropy in Neural Representations of Speech: A Case Study on Keyword Spotting
- Title(参考訳): 音声のニューラル表現における異方性の影響評価 : キーワードスポッティングを事例として
- Authors: Guillaume Wisniewski, Séverine Guillaume, Clara Rosina Fernández,
- Abstract要約: 本研究は,文書言語学におけるキーワードスポッティングにおける異方性を評価する。
異方性にもかかわらず、wav2vec2類似性は、転写のない単語を効果的に識別する。
- 参考スコア(独自算出の注目度): 4.342241136871849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained speech representations like wav2vec2 and HuBERT exhibit strong anisotropy, leading to high similarity between random embeddings. While widely observed, the impact of this property on downstream tasks remains unclear. This work evaluates anisotropy in keyword spotting for computational documentary linguistics. Using Dynamic Time Warping, we show that despite anisotropy, wav2vec2 similarity measures effectively identify words without transcription. Our results highlight the robustness of these representations, which capture phonetic structures and generalize across speakers. Our results underscore the importance of pretraining in learning rich and invariant speech representations.
- Abstract(参考訳): wav2vec2 や HuBERT のような事前制約された音声表現は強い異方性を示し、ランダムな埋め込みの間に高い類似性をもたらす。
広く観察されているが、下流タスクに対するこの特性の影響はいまだ不明である。
本研究は,文書言語学におけるキーワードスポッティングにおける異方性を評価する。
動的時間ワープを用いて、異方性にもかかわらず、wav2vec2の類似性は、転写のない単語を効果的に識別することを示した。
その結果,これらの表現の頑健さが強調され,音声構造を捉え,話者をまたいだ一般化がなされた。
この結果から,豊かで不変な音声表現の学習における事前学習の重要性が浮き彫りとなった。
関連論文リスト
- Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。
本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文 参考訳(メタデータ) (2023-10-11T16:54:57Z) - An Information-Theoretic Analysis of Self-supervised Discrete
Representations of Speech [17.07957283733822]
我々は,各音韻カテゴリーを離散単位上の分布として表現する情報理論フレームワークを開発した。
本研究は,音素分布のエントロピーが下層の音声の変動を反映していることを示す。
本研究は, 直接・一対一対応の欠如を裏付けるものであるが, 音韻カテゴリーと離散単位との間には, 興味深い, 間接的な関係があることを見出した。
論文 参考訳(メタデータ) (2023-06-04T16:52:11Z) - Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis [3.691712391306624]
細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
論文 参考訳(メタデータ) (2022-11-01T15:17:25Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention [4.103438743479001]
主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
論文 参考訳(メタデータ) (2021-04-26T20:46:54Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。