論文の概要: A Hierarchical Subspace Model for Language-Attuned Acoustic Unit
Discovery
- arxiv url: http://arxiv.org/abs/2011.03115v2
- Date: Mon, 9 Nov 2020 06:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:24:59.573455
- Title: A Hierarchical Subspace Model for Language-Attuned Acoustic Unit
Discovery
- Title(参考訳): 言語対応音響単位発見のための階層的部分空間モデル
- Authors: Bolaji Yusuf, Lucas Ondel, Lukas Burget, Jan Cernocky, Murat Saraclar
- Abstract要約: タスクは低次元の音素部分空間への埋め込みを学習する学習の1つであり、同時にその部分空間自体をハイパー部分空間への埋め込みとして指定する。
我々は、一連の転写言語でハイパーサブスペースをトレーニングし、ターゲット言語に転送する。
対象言語では、言語と単位埋め込みの両方を教師なしの方法で推論し、その言語に特有の単位のサブスペースと、それに宿る単位を同時に学習する。
- 参考スコア(独自算出の注目度): 14.177011436766799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a hierarchical subspace model for acoustic unit
discovery. In this approach, we frame the task as one of learning embeddings on
a low-dimensional phonetic subspace, and simultaneously specify the subspace
itself as an embedding on a hyper-subspace. We train the hyper-subspace on a
set of transcribed languages and transfer it to the target language. In the
target language, we infer both the language and unit embeddings in an
unsupervised manner, and in so doing, we simultaneously learn a subspace of
units specific to that language and the units that dwell on it. We conduct our
experiments on TIMIT and two low-resource languages: Mboshi and Yoruba. Results
show that our model outperforms major acoustic unit discovery techniques, both
in terms of clustering quality and segmentation accuracy.
- Abstract(参考訳): 本研究では,音響単位発見のための階層的部分空間モデルを提案する。
提案手法では,低次元音韻部分空間への埋め込みの学習としてタスクをフレーム化し,その部分空間自体をハイパー部分空間への埋め込みとして指定する。
我々は、一連の転写言語でハイパーサブスペースをトレーニングし、ターゲット言語に転送する。
対象言語では、言語とユニット埋め込みの両方を教師なしの方法で推測し、それによって、その言語に固有のユニットのサブスペースとそれに依存するユニットを同時に学習します。
我々はTIMITとMboshiとYorubaの2つの低リソース言語について実験を行った。
その結果,本モデルはクラスタリング品質とセグメンテーション精度の両面で,主要な音響ユニット発見技術より優れていることがわかった。
関連論文リスト
- Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。