論文の概要: EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices
- arxiv url: http://arxiv.org/abs/2502.07734v1
- Date: Tue, 11 Feb 2025 17:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:47.396547
- Title: EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices
- Title(参考訳): EdgeEar: エッジデバイスのための効率的かつ正確な耳認識
- Authors: Camile Lendering, Bernardo Perrone Ribeiro, Žiga Emeršič, Peter Peer,
- Abstract要約: 耳認識(Ear recognition)は、様々な領域にまたがる、接触のない、邪魔にならない生体計測技術である。
本稿では,この問題を解決するために,ハイブリッドCNN変換器アーキテクチャに基づく軽量モデルであるEdgeEarを紹介する。
特定の線形層に低ランク近似を組み込むことで、EdgeEarはパラメータ数を現在の最先端技術と比較して50倍に削減し、競合精度を維持しながら200万以下になる。
- 参考スコア(独自算出の注目度): 0.6200919793965987
- License:
- Abstract: Ear recognition is a contactless and unobtrusive biometric technique with applications across various domains. However, deploying high-performing ear recognition models on resource-constrained devices is challenging, limiting their applicability and widespread adoption. This paper introduces EdgeEar, a lightweight model based on a proposed hybrid CNN-transformer architecture to solve this problem. By incorporating low-rank approximations into specific linear layers, EdgeEar reduces its parameter count by a factor of 50 compared to the current state-of-the-art, bringing it below two million while maintaining competitive accuracy. Evaluation on the Unconstrained Ear Recognition Challenge (UERC2023) benchmark shows that EdgeEar achieves the lowest EER while significantly reducing computational costs. These findings demonstrate the feasibility of efficient and accurate ear recognition, which we believe will contribute to the wider adoption of ear biometrics.
- Abstract(参考訳): 耳認識(Ear recognition)は、様々な領域にまたがる、接触のない、邪魔にならない生体計測技術である。
しかし、リソース制約のあるデバイスに高性能な耳認識モデルをデプロイすることは困難であり、適用性や普及度を制限している。
本稿では,この問題を解決するために,ハイブリッドCNN変換器アーキテクチャに基づく軽量モデルであるEdgeEarを紹介する。
特定の線形層に低ランク近似を組み込むことで、EdgeEarはパラメータ数を現在の最先端技術と比較して50倍に削減し、競合精度を維持しながら200万以下になる。
The Unconstrained Ear Recognition Challenge (UERC2023)ベンチマークの評価は、EdgeEarが計算コストを大幅に削減しつつ、最低のEERを達成することを示している。
これらの知見は, 耳のバイオメトリックスの普及に寄与すると考えられる, 効率的かつ正確な耳の認識の実現可能性を示すものである。
関連論文リスト
- Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Ear-Keeper: Real-time Diagnosis of Ear Lesions Utilizing Ultralight-Ultrafast ConvNet and Large-scale Ear Endoscopic Dataset [7.5179664143779075]
リアルタイム耳疾患診断が可能な超高速・超軽量ネットワークBest-EarNetを提案する。
パラメータ0.77Mしか持たないBest-EarNetの精度は95.23%(内部22,581枚)、92.14%(外部1,652枚)である。
Best-EarNetをベースとしたインテリジェント診断システムであるEar-Keeperが成功し、一般的な電子機器にデプロイされた。
論文 参考訳(メタデータ) (2023-08-21T10:20:46Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - UESegNet: Context Aware Unconstrained ROI Segmentation Networks for Ear
Biometric [8.187718963808484]
耳のバイオメトリックスは 制約のない環境において かなりの困難を抱えています
野生における耳の局所化の問題に対処するため、我々は2つの高性能興味領域分割モデル UESegNet-1 と UESegNet-2 を提案している。
モデルの一般化をテストするために、6つの異なるベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2020-10-08T14:05:15Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。