論文の概要: The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities
- arxiv url: http://arxiv.org/abs/2410.04098v1
- Date: Sat, 5 Oct 2024 09:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:11:12.982497
- Title: The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities
- Title(参考訳): OCONモデル:スマートシティにおける音響モニタリングのための分布型教師付き分類のための古くてグリーンな解法
- Authors: Stefano Giacomelli, Marco Giordano, Claudia Rinaldi,
- Abstract要約: 本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
- 参考スコア(独自算出の注目度): 0.28675177318965045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores a structured application of the One-Class approach and the One-Class-One-Network model for supervised classification tasks, focusing on vowel phonemes classification and speakers recognition for the Automatic Speech Recognition (ASR) domain. For our case-study, the ASR model runs on a proprietary sensing and lightning system, exploited to monitor acoustic and air pollution on urban streets. We formalize combinations of pseudo-Neural Architecture Search and Hyper-Parameters Tuning experiments, using an informed grid-search methodology, to achieve classification accuracy comparable to nowadays most complex architectures, delving into the speaker recognition and energy efficiency aspects. Despite its simplicity, our model proposal has a very good chance to generalize the language and speaker genders context for widespread applicability in computational constrained contexts, proved by relevant statistical and performance metrics. Our experiments code is openly accessible on our GitHub.
- Abstract(参考訳): 本稿では、母音音素分類と自動音声認識(ASR)領域における話者認識に着目し、ワンクラス・アプローチとワンクラス・ワン・ネットワークモデルによる教師付き分類タスクの構造化の適用について検討する。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
疑似ニューラルアーキテクチャ探索とハイパーパラメータチューニングの組み合わせを,情報グリッド探索手法を用いて形式化し,現代のほとんどの複雑なアーキテクチャに匹敵する分類精度を実現し,話者認識とエネルギー効率の面を掘り下げる。
その単純さにもかかわらず、我々のモデル提案は、関連する統計的および性能指標によって証明された計算制約付き文脈において、広く適用可能な言語と話者の性別コンテキストを一般化する絶好の機会を持つ。
実験コードはGitHubで公開されています。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - The OCON model: an old but gold solution for distributable supervised classification [0.28675177318965045]
本稿では,教師付き分類タスクに対するワンクラスアプローチとワンクラスネットワークモデルの構造的応用について紹介する。
現在の複雑なアーキテクチャ(90.0~93.7%)に匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:15:01Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。