論文の概要: Subspace-based Representation and Learning for Phonotactic Spoken
Language Recognition
- arxiv url: http://arxiv.org/abs/2203.15576v1
- Date: Mon, 28 Mar 2022 07:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 16:01:09.855157
- Title: Subspace-based Representation and Learning for Phonotactic Spoken
Language Recognition
- Title(参考訳): 言語認識のための部分空間に基づく表現と学習
- Authors: Hung-Shin Lee, Yu Tsao, Shyh-Kang Jeng, Hsin-Min Wang
- Abstract要約: サブスペースに基づく表現に基づく新しい学習機構を提案する。
音声から隠れた音韻構造を抽出し、言語検証と方言/アクセント識別を行う。
提案手法は, PPR-LM, PPR-VSM, PPR-IVEC法に対して, 52%, 46%, 56%, 27%の相対的誤り率低下を実現した。
- 参考スコア(独自算出の注目度): 27.268047798971473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phonotactic constraints can be employed to distinguish languages by
representing a speech utterance as a multinomial distribution or phone events.
In the present study, we propose a new learning mechanism based on
subspace-based representation, which can extract concealed phonotactic
structures from utterances, for language verification and dialect/accent
identification. The framework mainly involves two successive parts. The first
part involves subspace construction. Specifically, it decodes each utterance
into a sequence of vectors filled with phone-posteriors and transforms the
vector sequence into a linear orthogonal subspace based on low-rank matrix
factorization or dynamic linear modeling. The second part involves subspace
learning based on kernel machines, such as support vector machines and the
newly developed subspace-based neural networks (SNNs). The input layer of SNNs
is specifically designed for the sample represented by subspaces. The topology
ensures that the same output can be derived from identical subspaces by
modifying the conventional feed-forward pass to fit the mathematical definition
of subspace similarity. Evaluated on the "General LR" test of NIST LRE 2007,
the proposed method achieved up to 52%, 46%, 56%, and 27% relative reductions
in equal error rates over the sequence-based PPR-LM, PPR-VSM, and PPR-IVEC
methods and the lattice-based PPR-LM method, respectively. Furthermore, on the
dialect/accent identification task of NIST LRE 2009, the SNN-based system
performed better than the aforementioned four baseline methods.
- Abstract(参考訳): 音声発話を多項分布または電話イベントとして表現することにより、言語を識別するためにフォノタティック制約を用いることができる。
本研究では,言語検証と方言/アクセント識別のために,発話から隠された音節構造を抽出するサブスペース表現に基づく新しい学習機構を提案する。
主に2つの連続する部分を含む。
第1部は部分空間構成である。
具体的には、各発話を音韻ポストリエータで満たされたベクトル列にデコードし、ベクトル列を低ランク行列分解や動的線形モデリングに基づいて線形直交部分空間に変換する。
第2部では、サポートベクターマシンや新たに開発されたサブスペースベースニューラルネットワーク(SNN)など、カーネルマシンに基づくサブスペース学習を取り上げている。
snnの入力層は、サブスペースで表されるサンプルのために特別に設計されている。
トポロジーは、同じ出力が同じ部分空間から導出されることを保証し、従来のフィードフォワードパスを変更して、部分空間の類似性の数学的定義に適合させる。
NIST LRE 2007の"General LR"テストに基づいて,提案手法は,PPR-LM法,PPR-VSM法,PPR-IVEC法および格子ベースのPPR-LM法に対して,それぞれ52%,46%,56%,27%の相対誤差率の低下を達成した。
さらに、NIST LRE 2009の方言/アクセント識別タスクでは、SNNベースのシステムは上記の4つのベースライン法よりも優れていた。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Subspace Representation Learning for Sparse Linear Arrays to Localize More Sources than Sensors: A Deep Learning Methodology [19.100476521802243]
我々はスパース線形アレイ(SLA)のサンプル共分散からコアレイ部分空間を推定する新しい手法を開発した。
このような表現を学習するために、所望部分空間と推定部分空間との分離を測る損失関数を提案する。
異なる次元の学習部分空間の計算は、新しいバッチサンプリング戦略によって高速化される。
論文 参考訳(メタデータ) (2024-08-29T15:14:52Z) - A Geometric Notion of Causal Probing [91.14470073637236]
言語モデルの表現空間では、動詞数のような概念に関するすべての情報が線形部分空間に符号化される。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
LEACEは概念情報の約半分を含む1次元の部分空間を返す。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - SubspaceNet: Deep Learning-Aided Subspace Methods for DoA Estimation [36.647703652676626]
SubspaceNetは、観測を区別可能な部分空間に分割する方法を学ぶデータ駆動型DoA推定器である。
SubspaceNetは、コヒーレントソース、広帯域信号、低いSNR、配列ミスマッチ、限られたスナップショットに対処する様々なDoA推定アルゴリズムを実現する。
論文 参考訳(メタデータ) (2023-06-04T06:30:13Z) - PROTOtypical Logic Tensor Networks (PROTO-LTN) for Zero Shot Learning [2.236663830879273]
論理ネットワーク(英: Logic Networks, LTN)は、ディープニューラルネットワークに根ざした微分可能な一階述語論理に基づくニューロシンボリックシステムである。
ここでは、ほとんどの意味的画像解釈タスクをエンコードする基本となるsubsumptionまたはtextttisOfClass述語に焦点を当てる。
本稿では,オブジェクト埋め込みと対応するクラスプロトタイプ間の距離の関数を真理レベルとする,共通のtextttisOfClass述語を提案する。
論文 参考訳(メタデータ) (2022-06-26T18:34:07Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z) - Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:53:30Z) - Deep Metric Structured Learning For Facial Expression Recognition [58.7528672474537]
本研究では,よく定義された構造を持つ組込み部分空間を作成するための深度計量学習モデルを提案する。
これらの部分空間を作成するために、出力空間上にガウス構造を課す新しい損失関数が導入された。
学習した埋め込みは,表現検索や感情認識など,様々な応用に有効であることが実験的に実証された。
論文 参考訳(メタデータ) (2020-01-18T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。