Fugu-MT 論文翻訳(概要): Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer

論文の概要: Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer

arxiv url: http://arxiv.org/abs/2011.11436v2
Date: Wed, 10 Feb 2021 18:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 02:55:08.070715
Title: Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer
Title（参考訳）: 擬似自己組織操作層を有する計算制約環境における音声コマンド認識
Authors: Mohammad Soltanian and Junaid Malik and Jenni Raitoharju and Alexandros Iosifidis and Serkan Kiranyaz and Moncef Gabbouj
Abstract要約: 軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
参考スコア（独自算出の注目度）: 92.37382674655942
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic classification of speech commands has revolutionized human computer interactions in robotic applications. However, employed recognition models usually follow the methodology of deep learning with complicated networks which are memory and energy hungry. So, there is a need to either squeeze these complicated models or use more efficient light-weight models in order to be able to implement the resulting classifiers on embedded devices. In this paper, we pick the second approach and propose a network layer to enhance the speech command recognition capability of a lightweight network and demonstrate the result via experiments. The employed method borrows the ideas of Taylor expansion and quadratic forms to construct a better representation of features in both input and hidden layers. This richer representation results in recognition accuracy improvement as shown by extensive experiments on Google speech commands (GSC) and synthetic speech commands (SSC) datasets.
Abstract（参考訳）: 音声コマンドの自動分類は、ロボットアプリケーションにおける人間のコンピュータインタラクションに革命をもたらした。しかしながら、採用済みの認識モデルは、通常、メモリとエネルギーを消費する複雑なネットワークを持つディープラーニングの方法論に従う。そのため、これらの複雑なモデルを絞り込むか、より効率的な軽量モデルを使用して、組み込みデバイスで結果の分類器を実装する必要がある。本稿では,第2のアプローチを選択し,軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案し,実験によりその結果を実証する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:47:18Z)
Imagined Speech State Classification for Robust Brain-Computer Interface [4.403687945412488]
本研究では,機械学習モデルと深層学習モデルの有効性について検討した。ディープラーニングモデル、特にEEGNetは0.7080、F1スコア0.6718に達した。これらの知見は、脳-コンピュータインタフェース(BCI)アプリケーションにおける従来の機械学習アプローチの限界を浮き彫りにしている。
論文参考訳（メタデータ） (2024-12-15T23:59:55Z)
The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文参考訳（メタデータ） (2024-10-05T09:47:54Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。 HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-07-14T13:02:10Z)
HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文参考訳（メタデータ） (2023-04-14T03:25:00Z)
Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。彼らは音声コマンド認識タスクについて有望な結果を示した。繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文参考訳（メタデータ） (2022-12-01T12:36:26Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
SAR-NAS: Skeleton-based Action Recognition via Neural Architecture Searching [18.860051578038608]
スケルトンベースのアクションインスタンスをテンソルにエンコードし、正常細胞と還元細胞という2種類のネットワーク細胞を構築するための一連の操作を定義する。 NTU RGB+DとKinecticsのデータセットに挑戦する実験では、骨格に基づく行動認識のために開発されたネットワークのほとんどは、コンパクトで効率的なものではないことが確認された。提案手法は,最先端の手法よりも比較や性能の向上が可能な,そのようなコンパクトなネットワークを探索する手法を提供する。
論文参考訳（メタデータ） (2020-10-29T03:24:15Z)
Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文参考訳（メタデータ） (2020-09-14T12:01:30Z)
AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文参考訳（メタデータ） (2020-05-07T02:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。