論文の概要: Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2
- arxiv url: http://arxiv.org/abs/2410.23776v1
- Date: Thu, 31 Oct 2024 09:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:04.885550
- Title: Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2
- Title(参考訳): Neurobench: XyloAudio 2のDCASE 2020音響シーン分類ベンチマーク
- Authors: Weijie Ke, Mina Khoei, Dylan Muir,
- Abstract要約: XyloAudioは超低消費電力オーディオ推論チップのシリーズだ。
リアルタイムエネルギー制約シナリオにおける音声の内・近マイクロホン解析のために設計されている。
- 参考スコア(独自算出の注目度): 0.06752396542927405
- License:
- Abstract: XyloAudio is a line of ultra-low-power audio inference chips, designed for in- and near-microphone analysis of audio in real-time energy-constrained scenarios. Xylo is designed around a highly efficient integer-logic processor which simulates parameter- and activity-sparse spiking neural networks (SNNs) using a leaky integrate-and-fire (LIF) neuron model. Neurons on Xylo are quantised integer devices operating in synchronous digital CMOS, with neuron and synapse state quantised to 16 bit, and weight parameters quantised to 8 bit. Xylo is tailored for real-time streaming operation, as opposed to accelerated-time operation in the case of an inference accelerator. XyloAudio includes a low-power audio encoding interface for direct connection to a microphone, designed for sparse encoding of incident audio for further processing by the inference core. In this report we present the results of DCASE 2020 acoustic scene classification audio benchmark dataset deployed to XyloAudio 2. We describe the benchmark dataset; the audio preprocessing approach; and the network architecture and training approach. We present the performance of the trained model, and the results of power and latency measurements performed on the XyloAudio 2 development kit. This benchmark is conducted as part of the Neurobench project.
- Abstract(参考訳): XyloAudioは超低消費電力オーディオ推論チップのラインで、リアルタイムなエネルギー制約のあるシナリオにおける音声のイン・マイクロフォン分析のために設計された。
Xyloは、パラメータとアクティビティスパーススパイキングニューラルネットワーク(SNN)を、漏洩した統合とファイア(LIF)ニューロンモデルを用いてシミュレートする、非常に効率的な整数論理プロセッサを中心に設計されている。
Xylo上のニューロンは、同期デジタルCMOSで動作する量子化された整数デバイスであり、ニューロンとシナプス状態は16ビットに量子化され、重みパラメータは8ビットに量子化されている。
Xyloは、推論アクセラレーターの場合の高速化操作とは対照的に、リアルタイムストリーミング操作用に調整されている。
XyloAudioはマイクロフォンに直接接続するための低消費電力オーディオエンコーディングインタフェースを備えており、推論コアによるさらなる処理のためにインシデントオーディオのスパースエンコーディング用に設計された。
本報告では,XyloAudio 2にデプロイされたDCASE 2020音響シーン分類音声ベンチマークの結果について述べる。
本稿では,ベンチマークデータセット,オーディオ前処理アプローチ,ネットワークアーキテクチャとトレーニングアプローチについて述べる。
XyloAudio 2 開発キットで行ったトレーニングモデルの性能,および電力および遅延の測定結果について述べる。
このベンチマークはNeurobenchプロジェクトの一部として実施されている。
関連論文リスト
- AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND
Audio-Based-Interaction-Recognition Challenge 2023 [5.0169092839789275]
本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。
課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。
我々のアプローチは、挑戦テストセットで55.43%の正確さを達成し、公衆のリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2023-07-14T10:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Audio Tagging on an Embedded Hardware Platform [20.028643659869573]
Raspberry Piなどのハードウェアにデプロイした場合,大規模な事前学習型オーディオニューラルネットワークの性能がどう変化するかを分析する。
実験の結果,連続したCPU使用量によって温度が上昇し,自動減速機構が起動できることが判明した。
マイクの品質、特にGoogle AIY Voice Kitのような安価なデバイスや音声信号のボリュームは、システムのパフォーマンスに影響を与えます。
論文 参考訳(メタデータ) (2023-06-15T13:02:41Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS [1.8927791081850118]
本稿では、バックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。
このモデルは、WaveRNNデコーダが音声波形を生成するために使用する低分解能メルスペクトル特性を生成する。
論文 参考訳(メタデータ) (2022-06-30T13:29:31Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。