論文の概要: Submodular Rank Aggregation on Score-based Permutations for Distributed
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2001.10529v1
- Date: Mon, 27 Jan 2020 19:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:21:04.966615
- Title: Submodular Rank Aggregation on Score-based Permutations for Distributed
Automatic Speech Recognition
- Title(参考訳): 分散音声認識のためのスコアベース置換におけるサブモジュールランクアグリゲーション
- Authors: Jun Qi, Chao-Han Huck Yang, Javier Tejedor
- Abstract要約: 線形構造凸関数とネスト構造凹関数を設定するために,ロバスツ・ブレグマンの発散に基づく集計階数関数を構成する。
分散ASRシステムを用いた実験では, 従来の集計手法よりも音声認識精度が高いことが示されている。
- 参考スコア(独自算出の注目度): 17.188894201735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed automatic speech recognition (ASR) requires to aggregate outputs
of distributed deep neural network (DNN)-based models. This work studies the
use of submodular functions to design a rank aggregation on score-based
permutations, which can be used for distributed ASR systems in both supervised
and unsupervised modes. Specifically, we compose an aggregation rank function
based on the Lovasz Bregman divergence for setting up linear structured convex
and nested structured concave functions. The algorithm is based on stochastic
gradient descent (SGD) and can obtain well-trained aggregation models. Our
experiments on the distributed ASR system show that the submodular rank
aggregation can obtain higher speech recognition accuracy than traditional
aggregation methods like Adaboost. Code is available
online~\footnote{https://github.com/uwjunqi/Subrank}.
- Abstract(参考訳): 分散音声認識(ASR)では、分散ディープニューラルネットワーク(DNN)ベースのモデルの出力を集約する必要がある。
本研究は、制御モードと教師なしモードの両方で分散ASRシステムに使用できるスコアベースの置換に基づいてランクアグリゲーションを設計するためのサブモジュラー関数の使用について研究する。
具体的には,線形構造凸とネスト構造凸関数を設定するためのlovasz bregman divergenceに基づく集計ランク関数を構成する。
このアルゴリズムは確率勾配降下(SGD)に基づいており、よく訓練された凝集モデルを得ることができる。
分散ASRシステムを用いた実験により,Adaboostのような従来の集計手法よりも音声認識精度が高いことがわかった。
コードはオンライン〜\footnote{https://github.com/uwjunqi/Subrank}で入手できる。
関連論文リスト
- Single image super-resolution based on trainable feature matching attention network [0.0]
畳み込みニューラルネットワーク(CNN)は画像超解法(SR)に広く利用されている
トレーニング可能な特徴マッチング(TFM)を導入し、CNNに明示的な特徴学習を導入し、その表現能力を増強する。
また,非局所演算の計算要求を軽減するため,SRNL (Same-size-divided Region-level Non-Local) という変種も提案する。
論文 参考訳(メタデータ) (2024-05-29T08:31:54Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Classification and Feature Transformation with Fuzzy Cognitive Maps [0.3299672391663526]
Fuzzy Cognitive Maps(FCM)は、ファジィ論理と繰り返しニューラルネットワークの要素を組み合わせたソフトコンピューティング技術と考えられている。
本研究では,フルコネクテッドマップ構造を有するFCMに基づく分類器を提案する。
重みを勾配アルゴリズムで学習し,コスト関数としてloglossやcross-entropyを用いた。
論文 参考訳(メタデータ) (2021-03-08T22:26:24Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Learning Semantically Enhanced Feature for Fine-Grained Image
Classification [27.136912902584093]
提案手法は,グローバルな特徴のサブ機能のセマンティクスを強化することで,きめ細かい特徴を学習する。
提案手法はパラメータ同型であり,エンドツーエンドトレーニング用のプラグイン・アンド・プレイモジュールとして,バックボーンモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-06-24T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。