論文の概要: Hybrid Neural Networks for On-device Directional Hearing
- arxiv url: http://arxiv.org/abs/2112.05893v1
- Date: Sat, 11 Dec 2021 01:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 16:03:20.747141
- Title: Hybrid Neural Networks for On-device Directional Hearing
- Title(参考訳): デバイス上方向聴力のためのハイブリッドニューラルネットワーク
- Authors: Anran Wang, Maruchi Kim, Hao Zhang, Shyamnath Gollakota
- Abstract要約: DeepBeamは、従来のビームフォーマーとカスタム軽量ニューラルネットワークを組み合わせたハイブリッドモデルだ。
私たちのリアルタイムハイブリッドモデルは、低消費電力のウェアラブルデバイス用に設計されたモバイルCPU上で8ミリ秒で動作し、エンドツーエンドのレイテンシ17.5ミリ秒を実現しています。
- 参考スコア(独自算出の注目度): 15.109811993590037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device directional hearing requires audio source separation from a given
direction while achieving stringent human-imperceptible latency requirements.
While neural nets can achieve significantly better performance than traditional
beamformers, all existing models fall short of supporting low-latency causal
inference on computationally-constrained wearables. We present DeepBeam, a
hybrid model that combines traditional beamformers with a custom lightweight
neural net. The former reduces the computational burden of the latter and also
improves its generalizability, while the latter is designed to further reduce
the memory and computational overhead to enable real-time and low-latency
operations. Our evaluation shows comparable performance to state-of-the-art
causal inference models on synthetic data while achieving a 5x reduction of
model size, 4x reduction of computation per second, 5x reduction in processing
time and generalizing better to real hardware data. Further, our real-time
hybrid model runs in 8 ms on mobile CPUs designed for low-power wearable
devices and achieves an end-to-end latency of 17.5 ms.
- Abstract(参考訳): デバイス上での指向性聴覚は、特定の方向からオーディオソースを分離し、厳しい人間に受け入れられないレイテンシ要件を達成する必要がある。
ニューラルネットは従来のビームフォーマよりも大幅にパフォーマンスが向上するが、既存のモデルはすべて、計算に制約のあるウェアラブル上での低レイテンシ因果推論をサポートしない。
従来のビームフォーマと独自の軽量ニューラルネットワークを組み合わせたハイブリッドモデルであるDeepBeamを紹介する。
前者は後者の計算負荷を軽減し、その一般化性も向上し、後者はメモリと計算オーバーヘッドをさらに削減し、リアルタイムかつ低遅延操作を可能にするように設計されている。
本評価は,モデルサイズの5倍削減,毎秒の計算量の4倍削減,処理時間の5倍削減,実データへの一般化など,合成データにおける最先端因果推論モデルと同等の性能を示す。
さらに、リアルタイムハイブリッドモデルは、低消費電力ウェアラブルデバイス用に設計されたモバイルcpu上で8msで動作し、エンドツーエンドのレイテンシ17.5msを実現しています。
関連論文リスト
- Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Model-based Optimization of Superconducting Qubit Readout [59.992881941624965]
超伝導量子ビットに対するモデルベース読み出し最適化を実証する。
我々は,残共振器光子から500nsの終端長と最小限の過剰リセット誤差で,キュービット当たり1.5%の誤差を観測した。
この技術は数百のキュービットに拡張でき、エラー訂正コードや短期アプリケーションの性能を高めるために使用される。
論文 参考訳(メタデータ) (2023-08-03T23:30:56Z) - Gated Compression Layers for Efficient Always-On Models [1.5612040984769857]
本稿では,既存のニューラルネットワークアーキテクチャをGated Neural Networksに変換するために適用可能な,新しいGated Compression層を提案する。
提案するGated Compression層は、負のサンプルの96%を効果的に停止し、正のサンプルの97%を圧縮し、モデルの精度を維持または改善する。
論文 参考訳(メタデータ) (2023-03-15T22:46:22Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Lightweight network towards real-time image denoising on mobile devices [26.130379174715742]
深層畳み込みニューラルネットワークは、画像復調タスクにおいて大きな進歩を遂げている。
複雑なアーキテクチャと計算コストにより、モバイルデバイスへのデプロイが妨げられる。
モバイルフレンドリーなデノベーションネットワークであるMFDNetを提案する。
論文 参考訳(メタデータ) (2022-11-09T05:19:26Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Automatic heterogeneous quantization of deep neural networks for
low-latency inference on the edge for particle detectors [5.609098985493794]
我々は,チップ上での最小エネルギー,高精度,ナノ秒の推論,完全自動展開のための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。
これはCERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順に不可欠であり、リソースは厳密に制限され、$mathcal O(1)mu$sのレイテンシが要求される。
論文 参考訳(メタデータ) (2020-06-15T15:07:49Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids [13.369813069254132]
モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
論文 参考訳(メタデータ) (2020-05-20T20:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。