論文の概要: AM-MobileNet1D: A Portable Model for Speaker Recognition
- arxiv url: http://arxiv.org/abs/2004.00132v1
- Date: Tue, 31 Mar 2020 21:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:19:59.410733
- Title: AM-MobileNet1D: A Portable Model for Speaker Recognition
- Title(参考訳): AM-MobileNet1D:話者認識のためのポータブルモデル
- Authors: Jo\~ao Ant\^onio Chagas Nunes, David Mac\^edo, Cleber Zanchettin
- Abstract要約: 本稿では,モバイル端末上で話者識別を行うために,Additive Margin MobileNet1D (AM-MobileNet1D) と呼ばれるポータブルモデルを提案する。
我々は,TIMITとMITのデータセットに対する提案手法の評価を行い,ベースライン法について同等あるいはより良い性能が得られることを示した。
- 参考スコア(独自算出の注目度): 2.262407399039118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker Recognition and Speaker Identification are challenging tasks with
essential applications such as automation, authentication, and security. Deep
learning approaches like SincNet and AM-SincNet presented great results on
these tasks. The promising performance took these models to real-world
applications that becoming fundamentally end-user driven and mostly mobile. The
mobile computation requires applications with reduced storage size,
non-processing and memory intensive and efficient energy-consuming. The deep
learning approaches, in contrast, usually are energy expensive, demanding
storage, processing power, and memory. To address this demand, we propose a
portable model called Additive Margin MobileNet1D (AM-MobileNet1D) to Speaker
Identification on mobile devices. We evaluated the proposed approach on TIMIT
and MIT datasets obtaining equivalent or better performances concerning the
baseline methods. Additionally, the proposed model takes only 11.6 megabytes on
disk storage against 91.2 from SincNet and AM-SincNet architectures, making the
model seven times faster, with eight times fewer parameters.
- Abstract(参考訳): 話者認識と話者識別は、自動化、認証、セキュリティといった重要なアプリケーションで課題となるタスクである。
SincNetやAM-SincNetのようなディープラーニングアプローチは、これらのタスクに素晴らしい結果をもたらした。
有望なパフォーマンスにより、これらのモデルは、基本的にエンドユーザ駆動で、主にモバイルとなる現実のアプリケーションへと移行した。
モバイル計算は、ストレージサイズ、非処理、メモリ集約的かつ効率的なエネルギー消費の少ないアプリケーションを必要とする。
対照的にディープラーニングのアプローチは、通常、エネルギーコストが高く、ストレージ、処理能力、メモリを必要とする。
この要求に対処するため,モバイルデバイス上で話者識別を行うためのAdditive Margin MobileNet1D (AM-MobileNet1D) というポータブルモデルを提案する。
提案手法をTIMITとMITのデータセットで評価し,ベースライン法について同等あるいはより良い性能を示した。
さらに、提案されたモデルは、sincnetとam-sincnetアーキテクチャの91.2に対してディスクストレージでわずか11.6メガバイトしか消費せず、8倍のパラメータでモデルが7倍高速になった。
関連論文リスト
- Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices [0.0]
YOLOv8 (Nano, Small, Medium), EfficientDet Lite (Lite0, Lite1, Lite2), SSD (SSD MobileNet V1, SSDLite MobileDet) など,最先端のオブジェクト検出モデルの評価を行った。
これらのモデルをRaspberry Pi 3、4、5、TPUアクセラレーター、Jetson Orin Nanoといった一般的なエッジデバイスにデプロイし、エネルギー消費、推論時間、平均精度(mAP)といった重要なパフォーマンス指標を収集しました。
この結果から,SSD MobileNet V1などの低mAPモデルの方がエネルギー効率が高く,高速であることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T10:56:49Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Mobile Foundation Model as Firmware [13.225478051091763]
sysはモバイルOSとハードウェアの協調管理アプローチである。
公開されているLarge Language Models (LLM) のキュレートされた選択と、動的データフローの促進を両立させる。
タスクの85%で精度を同等にし、ストレージとメモリのスケーラビリティを改善し、十分な推論速度を提供する。
論文 参考訳(メタデータ) (2023-08-28T07:21:26Z) - SqueezerFaceNet: Reducing a Small Face Recognition CNN Even More Via
Filter Pruning [55.84746218227712]
我々は,100万パラメータ未満の軽量顔認識ネットワークであるSqueezerFaceNetを開発した。
性能を損なうことなく、さらに(最大40%)削減できることを示す。
論文 参考訳(メタデータ) (2023-07-20T08:38:50Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - In-situ Model Downloading to Realize Versatile Edge AI in 6G Mobile
Networks [61.416494781759326]
In-situモデルダウンロードは、ネットワーク内のAIライブラリからダウンロードすることで、デバイス上のAIモデルを透過的でリアルタイムに置き換えることを目的としている。
提示されたフレームワークの重要なコンポーネントは、ダウンロードされたモデルを深さレベル、パラメータレベル、ビットレベルで動的に圧縮する一連のテクニックである。
我々は,3層(エッジ,ローカル,中央)AIライブラリのキー機能を備えた,インサイトモデルダウンロードのデプロイ用にカスタマイズされた6Gネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T13:41:15Z) - LIDSNet: A Lightweight on-device Intent Detection model using Deep
Siamese Network [2.624902795082451]
LIDSNetは、デバイス上の意図を検出する新しい軽量なモデルである。
我々は,Samsung Galaxy S20デバイス上でのMobileBERTよりも,推論時に少なくとも41倍,30倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-06T18:20:37Z) - PhiNets: a scalable backbone for low-power AI at the edge [2.7910505923792646]
PhiNetsは、リソース制約のあるプラットフォーム上でのディープラーニングベースの画像処理に最適化された、スケーラブルなバックボーンである。
PhiNetは計算コスト、動作メモリ、パラメータメモリを分離するために特別に設計された逆残差ブロックに基づいている。
STM32H743マイクロコントローラをベースとしたプロトタイプノードへのアプローチを実証する。
論文 参考訳(メタデータ) (2021-10-01T12:03:25Z) - PocketNet: Extreme Lightweight Face Recognition Network using Neural
Architecture Search and Multi-Step Knowledge Distillation [5.858033242850427]
我々はニューラルアーキテクチャ検索を用いて、新しい顔認識モデル、すなわちPocketNetを開発した。
我々は,9つの異なるベンチマークにおいて,最近のコンパクト顔認証モデルとの比較実験を行った。
PocketNetsは9つの主要なベンチマークで、常に最先端(SOTA)の顔認識性能を向上してきた。
論文 参考訳(メタデータ) (2021-08-24T13:19:08Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。