論文の概要: EdgeSpot: Efficient and High-Performance Few-Shot Model for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2601.16316v1
- Date: Thu, 22 Jan 2026 20:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.403764
- Title: EdgeSpot: Efficient and High-Performance Few-Shot Model for Keyword Spotting
- Title(参考訳): EdgeSpot: キーワードスポッティングのための効率的かつ高性能なFew-Shotモデル
- Authors: Oguzhan Buyuksolak, Alican Gok, Osman Erman Okman,
- Abstract要約: この研究は、EdgeSpotモデルが、強いBC-ResNetベースラインよりも、固定された偽アラームレート(FAR)において、一貫してより良い精度を提供することを示した。
最大のEdgeSpot-4は、FARが1%の10ショット精度を73.7%から82.0%に改善し、128kパラメータを持つわずか29.4MのMACしか必要としない。
- 参考スコア(独自算出の注目度): 0.06256402324137826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an efficient few-shot keyword spotting model for edge devices, EdgeSpot, that pairs an optimized version of a BC-ResNet-based acoustic backbone with a trainable Per-Channel Energy Normalization frontend and lightweight temporal self-attention. Knowledge distillation is utilized during training by employing a self-supervised teacher model, optimized with Sub-center ArcFace loss. This study demonstrates that the EdgeSpot model consistently provides better accuracy at a fixed false-alarm rate (FAR) than strong BC-ResNet baselines. The largest variant, EdgeSpot-4, improves the 10-shot accuracy at 1% FAR from 73.7% to 82.0%, which requires only 29.4M MACs with 128k parameters.
- Abstract(参考訳): 我々は、BC-ResNetベースの音響バックボーンの最適化バージョンと、トレーニング可能なPer-Channel Energy Normalizationフロントエンドと軽量な時間的自己アテンションとを組み合わせ、エッジデバイスのための効率的な数ショットキーワードスポッティングモデルEdgeSpotを導入する。
知識蒸留は、サブセンターArcFace損失に最適化された自己教師型教師モデルを用いることで、訓練中に活用される。
この研究は、EdgeSpotモデルが、強いBC-ResNetベースラインよりも、固定された偽アラームレート(FAR)において、一貫してより良い精度を提供することを示した。
最大の変種であるEdgeSpot-4は、FARが1%の10ショット精度を73.7%から82.0%に改善し、128kパラメータを持つわずか29.4MのMACしか必要としない。
関連論文リスト
- Enhancing Few-shot Keyword Spotting Performance through Pre-Trained Self-supervised Speech Models [0.5647518134874363]
キーワードスポッティングは、バッテリー駆動エッジデバイスに対するハンズフリーインタラクションを可能にする上で重要な役割を果たす。
本研究では,自己指導型学習モデルを用いて,ロバストな特徴抽出,次元縮小,知識蒸留を行う訓練手法を提案する。
提案手法は,Multilingual Spoken Words Corpus (MSWC) とGoogle Speech Commands (GSC) データセットの英語部分に対して評価を行った。
論文 参考訳(メタデータ) (2025-06-21T11:39:11Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - EdgeFace: Efficient Face Recognition Model for Edge Devices [8.78717459496649]
EdgeFaceは、EdgeNeXtのハイブリッドアーキテクチャにインスパイアされた、軽量で効率的な顔認識ネットワークである。
LFW (99.73%) , IJB-B (92.67%) および IJB-C (94.85%) の術式結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T17:30:19Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Unlocking High-Accuracy Differentially Private Image Classification
through Scale [45.93988209606857]
差分プライバシー(DP)は、機械学習モデルにアクセスする敵が個々のトレーニングポイントに関する情報を抽出することを防ぐ正式なプライバシー保証を提供する。
従来の研究では、DP-SGDが標準画像分類ベンチマークの性能を著しく低下させることが多かった。
オーバーパラメータ化モデル上でのDP-SGDは、以前考えられていたよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-28T17:10:56Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。