論文の概要: Self-Supervised Speech Models Encode Phonetic Context via Position-dependent Orthogonal Subspaces
- arxiv url: http://arxiv.org/abs/2603.12642v1
- Date: Fri, 13 Mar 2026 04:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.902467
- Title: Self-Supervised Speech Models Encode Phonetic Context via Position-dependent Orthogonal Subspaces
- Title(参考訳): 位置依存直交部分空間による音声文脈の自己教師付き音声モデル
- Authors: Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David R. Mortensen, David Harwath,
- Abstract要約: トランスフォーマーに基づく自己教師型音声モデル(S3Ms)はしばしば文脈化と表現されるが、これは何を意味するのかは定かではない。
本稿では,携帯電話とその周辺環境を1フレームレベルのS3M表現でエンコードする方法に焦点を当てる。
- 参考スコア(独自算出の注目度): 43.248267022216105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based self-supervised speech models (S3Ms) are often described as contextualized, yet what this entails remains unclear. Here, we focus on how a single frame-level S3M representation can encode phones and their surrounding context. Prior work has shown that S3Ms represent phones compositionally; for example, phonological vectors such as voicing, bilabiality, and nasality vectors are superposed in the S3M representation of [m]. We extend this view by proposing that phonological information from a sequence of neighboring phones is also compositionally encoded in a single frame, such that vectors corresponding to previous, current, and next phones are superposed within a single frame-level representation. We show that this structure has several properties, including orthogonality between relative positions, and emergence of implicit phonetic boundaries. Together, our findings advance our understanding of context-dependent S3M representations.
- Abstract(参考訳): トランスフォーマーに基づく自己教師型音声モデル(S3Ms)はしばしば文脈化と表現されるが、これは何を意味するのかは定かではない。
本稿では,携帯電話とその周辺環境を1フレームレベルのS3M表現でエンコードする方法に焦点を当てる。
例えば、[m]のS3M表現において、発声、ビラビリティ、鼻音ベクトルなどの音韻ベクトルが重畳される。
我々は、隣接する電話機列からの音韻情報が、前、現在、次の電話機に対応するベクトルが単一のフレームレベル表現に重畳されるように、単一のフレームに構成的に符号化されることを提案して、この見方を拡張した。
この構造は、相対的な位置の直交性や暗黙的な音韻境界の出現など、いくつかの特性を持つことを示す。
そこで本研究では,文脈依存型S3M表現の理解を深めた。
関連論文リスト
- [b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic [43.24826702221611]
自己教師型音声モデル(S3M)は、リッチな音声情報を符号化することが知られている。
モデル表現空間内には音韻的特徴に対応する線形方向が存在することを示す。
また,これらの音韻ベクトルのスケールは,対応する音韻的特徴の音響的実現度と相関することを示した。
論文 参考訳(メタデータ) (2026-02-21T16:43:13Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - A BiRGAT Model for Multi-intent Spoken Language Understanding with
Hierarchical Semantic Frames [30.200413352223347]
まず、MIVSと呼ばれる現実的な車載対話システムから収集されるマルチインテントデータセットを提案する。
対象のセマンティックフレームは、3層階層構造で構成され、多目的ケースにおけるアライメントとアライメントの問題に対処する。
我々は,2つの関係グラフアテンションネットワークであるアイテムの階層構造を符号化するBiRGATモデルを考案した。
論文 参考訳(メタデータ) (2024-02-28T11:39:26Z) - Symphonize 3D Semantic Scene Completion with Contextual Instance Queries [49.604907627254434]
3Dセマンティック・シーン・コンプリート(SSC)は、自動運転における初期段階かつ重要な取り組みとして登場した。
本稿では,2次元から3次元の再構成と3次元のシーンモデリングを統括するインスタンスクエリの統合を目的とした,シンフォニー(Scene-from-Insts)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-27T17:59:46Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。