論文の概要: [b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic
- arxiv url: http://arxiv.org/abs/2602.18899v1
- Date: Sat, 21 Feb 2026 16:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.383027
- Title: [b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic
- Title(参考訳): b]=[d]-[t]+[p]:音韻ベクトル算術的な自己教師型音声モデル
- Authors: Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. Mortensen,
- Abstract要約: 自己教師型音声モデル(S3M)は、リッチな音声情報を符号化することが知られている。
モデル表現空間内には音韻的特徴に対応する線形方向が存在することを示す。
また,これらの音韻ベクトルのスケールは,対応する音韻的特徴の音響的実現度と相関することを示した。
- 参考スコア(独自算出の注目度): 43.24826702221611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech models (S3Ms) are known to encode rich phonetic information, yet how this information is structured remains underexplored. We conduct a comprehensive study across 96 languages to analyze the underlying structure of S3M representations, with particular attention to phonological vectors. We first show that there exist linear directions within the model's representation space that correspond to phonological features. We further demonstrate that the scale of these phonological vectors correlate to the degree of acoustic realization of their corresponding phonological features in a continuous manner. For example, the difference between [d] and [t] yields a voicing vector: adding this vector to [p] produces [b], while scaling it results in a continuum of voicing. Together, these findings indicate that S3Ms encode speech using phonologically interpretable and compositional vectors, demonstrating phonological vector arithmetic. All code and interactive demos are available at https://github.com/juice500ml/phonetic-arithmetic .
- Abstract(参考訳): 自己教師付き音声モデル(S3Ms)は、リッチな音声情報を符号化することが知られているが、この情報がどのように構造化されているかは未解明のままである。
我々は96言語にわたる包括的な研究を行い、S3M表現の基盤構造を解析し、特に音韻ベクトルに注目した。
まず,音韻的特徴に対応するモデル表現空間内に線形方向が存在することを示す。
さらに、これらの音韻ベクトルのスケールは、対応する音韻的特徴を連続的に音響的実現の度合いと相関することを示した。
例えば、[d] と [t] の違いは、[p] にこのベクトルを追加すると[b] が生成され、スケールすると、発声の連続体が生成される。
これらの結果から,S3Msは音韻論的に解釈可能で構成的ベクトルを用いて音声を符号化し,音韻論的ベクトル算術を実証した。
すべてのコードとインタラクティブなデモはhttps://github.com/juice500ml/phonetic-arithmetic で公開されている。
関連論文リスト
- Differential syntactic and semantic encoding in LLMs [49.300174325011426]
我々は,Large Language Models (LLMs) の内部層表現において,統語的・意味的情報を符号化する方法を検討する。
構文と意味論の層間符号化プロファイルは異なっており,この2つの信号はある程度分離可能であることが判明した。
論文 参考訳(メタデータ) (2026-01-08T09:33:29Z) - Towards Leveraging Sequential Structure in Animal Vocalizations [29.151583875937927]
本稿では,ベクトル量子化とガムベル・ソフトマックスベクトル量子化によって導出される離散音響トークン列が,時間情報を効果的に捕捉・活用できるかどうかを考察する。
その目的のために、HuBERT埋め込みから生成されるトークンシーケンスのペアワイズ距離分析により、4つのバイオ音響データセットでコールタイプと呼び出し元を識別できることが示されている。
論文 参考訳(メタデータ) (2025-11-13T11:00:38Z) - Probing Subphonemes in Morphology Models [3.937454839700144]
音素を直接訓練したトランスフォーマーにおける音韻的特徴符号化の言語に依存しない探索手法を提案する。
音素の埋め込みにおいて,トルコ語における最終音素発声のような局所的な音韻的特徴がよく捉えられるのに対し,母音調和のような長距離依存は変圧器のエンコーダで表現されるのがよいことを示す。
論文 参考訳(メタデータ) (2025-05-16T14:27:40Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。