論文の概要: Intelligent Acoustic Module for Autonomous Vehicles using Fast Gated
Recurrent approach
- arxiv url: http://arxiv.org/abs/2112.03174v1
- Date: Mon, 6 Dec 2021 17:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 18:36:00.492540
- Title: Intelligent Acoustic Module for Autonomous Vehicles using Fast Gated
Recurrent approach
- Title(参考訳): 高速ゲートリカレントアプローチによる自動運転車用インテリジェント音響モジュール
- Authors: Raghav Rawat, Shreyash Gupta, Shreyas Mohapatra, Sujata Priyambada
Mishra, Sreesankar Rajagopal
- Abstract要約: 本稿では,資源制約エッジデバイスにおける音響シングルトーンとマルチトーンの分類モデルについて検討する。
提案手法は,従来の仮説手法と比較して,性能指標の改善と小型化を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper elucidates a model for acoustic single and multi-tone
classification in resource constrained edge devices. The proposed model is of
State-of-the-art Fast Accurate Stable Tiny Gated Recurrent Neural Network. This
model has resulted in improved performance metrics and lower size compared to
previous hypothesized methods by using lesser parameters with higher efficiency
and employment of a noise reduction algorithm. The model is implemented as an
acoustic AI module, focused for the application of sound identification,
localization, and deployment on AI systems like that of an autonomous car.
Further, the inclusion of localization techniques carries the potential of
adding a new dimension to the multi-tone classifiers present in autonomous
vehicles, as its demand increases in urban cities and developing countries in
the future.
- Abstract(参考訳): 本稿では,資源制約エッジデバイスにおける音響シングル・マルチトーン分類のモデルを明らかにする。
提案したモデルは、最先端の高速安定Tiny Gated Recurrent Neural Networkである。
このモデルでは,より効率のよいパラメータとノイズ低減アルゴリズムを用いることで,従来の仮定手法と比較して性能指標の改善と小型化を実現している。
このモデルはアコースティックAIモジュールとして実装されており、自動走行車のようなAIシステムへのサウンド識別、ローカライゼーション、デプロイメントの適用に重点を置いている。
さらに、ローカライゼーション技術の導入は、将来都市や発展途上国の需要が増加するにつれて、自動運転車に存在するマルチトン分類器に新たな次元を追加する可能性をもたらす。
関連論文リスト
- The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Quadratic mutual information regularization in real-time deep CNN models [51.66271681532262]
擬似相互情報による正規化手法を提案する。
種々の二項分類問題の実験を行い,提案モデルの有効性を示した。
論文 参考訳(メタデータ) (2021-08-26T13:14:24Z) - Low-Complexity Models for Acoustic Scene Classification Based on
Receptive Field Regularization and Frequency Damping [7.0349768355860895]
ニューラルネットワークにおけるパラメータ数を削減するために,よく知られた手法をいくつか検討し,比較する。
我々は、受容場に特定の制約を適用することで、高い性能の低複雑性モデルを実現することができることを示す。
本稿では,モデルのRFを規則化するためのフィルタ減衰手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T16:34:11Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
論文 参考訳(メタデータ) (2020-03-12T20:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。