論文の概要: SELD-TCN: Sound Event Localization & Detection via Temporal
Convolutional Networks
- arxiv url: http://arxiv.org/abs/2003.01609v1
- Date: Tue, 3 Mar 2020 15:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:24:34.158472
- Title: SELD-TCN: Sound Event Localization & Detection via Temporal
Convolutional Networks
- Title(参考訳): SELD-TCN:時間畳み込みネットワークによる音事象の定位と検出
- Authors: Karim Guirguis, Christoph Schorn, Andre Guntoro, Sherif Abdulatif, Bin
Yang
- Abstract要約: 畳み込みリカレントニューラルネットワーク(CRNN)を用いた最近の音事象の定位・検出(SELD)フレームワーク
本研究では,時間的畳み込みネットワーク(TCN)に基づく,より堅牢でハードウェアに優しい新しいアーキテクチャを開発する。
提案したフレームワーク(SELD-TCN)は、4つの異なるデータセット上での最先端のSELDnet性能を上回っている。
- 参考スコア(独自算出の注目度): 6.475071904639777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The understanding of the surrounding environment plays a critical role in
autonomous robotic systems, such as self-driving cars. Extensive research has
been carried out concerning visual perception. Yet, to obtain a more complete
perception of the environment, autonomous systems of the future should also
take acoustic information into account. Recent sound event localization and
detection (SELD) frameworks utilize convolutional recurrent neural networks
(CRNNs). However, considering the recurrent nature of CRNNs, it becomes
challenging to implement them efficiently on embedded hardware. Not only are
their computations strenuous to parallelize, but they also require high memory
bandwidth and large memory buffers. In this work, we develop a more robust and
hardware-friendly novel architecture based on a temporal convolutional
network(TCN). The proposed framework (SELD-TCN) outperforms the
state-of-the-art SELDnet performance on four different datasets. Moreover,
SELD-TCN achieves 4x faster training time per epoch and 40x faster inference
time on an ordinary graphics processing unit (GPU).
- Abstract(参考訳): 周囲の環境を理解することは、自動運転車のような自律ロボットシステムにおいて重要な役割を果たす。
視覚知覚に関する広範な研究が行われている。
しかし、環境に対するより完全な認識を得るためには、未来の自律システムは音響情報も考慮する必要がある。
最近の音事象の局所化と検出(SELD)フレームワークは畳み込みリカレントニューラルネットワーク(CRNN)を利用している。
しかし,CRNNの繰り返しの性質を考えると,組込みハードウェア上で効率よく実装することは困難である。
彼らの計算は並列化に強いだけでなく、高いメモリ帯域幅と大きなメモリバッファも必要である。
本研究では,時間的畳み込みネットワーク(TCN)に基づく,より堅牢でハードウェアに優しい新しいアーキテクチャを開発する。
提案したフレームワーク(SELD-TCN)は、4つの異なるデータセット上での最先端のSELDnet性能を上回っている。
さらに、SELD-TCNは、通常のグラフィックス処理ユニット(GPU)において、エポック毎の4倍高速なトレーニング時間と40倍高速な推論時間を達成する。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Object Detection with Spiking Neural Networks on Automotive Event Data [0.0]
我々は、イベントカメラから直接スパイキングニューラルネットワーク(SNN)を訓練し、高速で効率的な自動車組込みアプリケーションを設計することを提案する。
本稿では,2つの自動車イベントデータセットの実験を行い,スパイクニューラルネットワークのための最先端の分類結果を確立した。
論文 参考訳(メタデータ) (2022-05-09T14:39:47Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded
Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。
本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:20:52Z) - EffCNet: An Efficient CondenseNet for Image Classification on NXP
BlueBox [0.0]
エッジデバイスは、安価なハードウェアと限られた冷却と計算資源のために、限られた処理能力を提供する。
我々はエッジデバイスのためのEffCNetと呼ばれる新しいディープ畳み込みニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-28T21:32:31Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Multivariate Time Series Classification Using Spiking Neural Networks [7.273181759304122]
スパイクニューラルネットワークは低消費電力を可能にするため注目されている。
本稿では,時系列をスパース時空間スパイクパターンに変換する符号化方式を提案する。
空間時間パターンを分類する学習アルゴリズムも提案する。
論文 参考訳(メタデータ) (2020-07-07T15:24:01Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Efficient Synthesis of Compact Deep Neural Networks [17.362146401041528]
ディープニューラルネットワーク(DNN)は、無数の機械学習アプリケーションにデプロイされている。
これらの大規模で深いモデルは、膨大な計算コスト、高いメモリ帯域幅、長いレイテンシのために、現実世界のアプリケーションには適さないことが多い。
本稿では,DNN/LSTMモデルの自動合成手法について概説する。
論文 参考訳(メタデータ) (2020-04-18T21:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。