論文の概要: MobileASR: A resource-aware on-device learning framework for user voice
personalization applications on mobile phones
- arxiv url: http://arxiv.org/abs/2306.09384v2
- Date: Fri, 10 Nov 2023 04:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:04:24.263682
- Title: MobileASR: A resource-aware on-device learning framework for user voice
personalization applications on mobile phones
- Title(参考訳): MobileASR: 携帯電話でのユーザ音声パーソナライズアプリケーションのためのリソース対応オンデバイス学習フレームワーク
- Authors: Zitha Sasindran, Harsha Yelchuri, Pooja Rao, T. V. Prabhakar
- Abstract要約: 本稿では,ASRモデルを構築するための包括的方法論について述べる。
携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。
デバイス上でのトレーニングと評価のフレームワーク全体が、ブランド間でさまざまな携帯電話でテストされた。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a comprehensive methodology for developing user-voice
personalized automatic speech recognition (ASR) models by effectively training
models on mobile phones, allowing user data and models to be stored and used
locally. To achieve this, we propose a resource-aware sub-model-based training
approach that considers the RAM, and battery capabilities of mobile phones. By
considering the evaluation metric and resource constraints of the mobile
phones, we are able to perform efficient training and halt the process
accordingly. To simulate real users, we use speakers with various accents. The
entire on-device training and evaluation framework was then tested on various
mobile phones across brands. We show that fine-tuning the models and selecting
the right hyperparameter values is a trade-off between the lowest achievable
performance metric, on-device training time, and memory consumption. Overall,
our methodology offers a comprehensive solution for developing personalized ASR
models while leveraging the capabilities of mobile phones, and balancing the
need for accuracy with resource constraints.
- Abstract(参考訳): 本稿では,携帯電話上でモデルを効果的にトレーニングし,ユーザデータとモデルをローカルに保存・利用することによる,ユーザ音声パーソナライズされた自動音声認識(asr)モデルを開発するための包括的方法論について述べる。
そこで本研究では,携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。
携帯電話の評価基準と資源制約を考慮することで,効率的なトレーニングを行い,そのプロセスを停止することができる。
実際のユーザをシミュレートするために、さまざまなアクセントのスピーカーを使用します。
オンデバイストレーニングと評価フレームワーク全体が、ブランド間のさまざまな携帯電話でテストされた。
モデルを微調整し、適切なハイパーパラメータ値を選択することは、最小の達成可能なパフォーマンス指標、オンデバイストレーニング時間、メモリ消費のトレードオフであることを示す。
本手法は,携帯電話の能力を活用しながらパーソナライズされたASRモデルを開発するための包括的ソリューションを提供し,精度とリソース制約のバランスをとる。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - On-device Training: A First Overview on Existing Systems [6.551096686706628]
リソース制約のあるデバイスにいくつかのモデルをデプロイする努力も行われている。
この研究は、デバイス上でモデルトレーニングを可能にする最先端のシステム研究を要約し、分析することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T19:22:29Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - MobileFaceSwap: A Lightweight Framework for Video Face Swapping [56.87690462046143]
主観的顔交換のための軽量IDN(IDN)を提案する。
提示されたIDNは0.50Mパラメータのみを含み、1フレームあたり0.33GのFLOPを必要とするため、携帯電話でリアルタイムのビデオ顔交換が可能である。
論文 参考訳(メタデータ) (2022-01-11T06:48:12Z) - Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A
Stackelberg Game Approach [54.28419430315478]
Mobile Edge Learningは、異種エッジデバイス上で機械学習モデルの分散トレーニングを可能にする。
MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。
そこで我々は2ラウンドのStackelbergゲームとしてオーケストレータとラーナーの相互作用を定式化するインセンティブ機構を提案する。
論文 参考訳(メタデータ) (2021-09-25T17:27:48Z) - Continual Learning at the Edge: Real-Time Training on Smartphone Devices [11.250227901473952]
本稿では,デバイス上でリアルタイムなパーソナライズを実現するために,ネイティブなAndroidアプリケーション上でのハイブリッド学習戦略(AR1*)の実装と展開について述べる。
我々のベンチマークはCORe50データセットの拡張に基づいており、ソリューションの有効性と有効性を示している。
論文 参考訳(メタデータ) (2021-05-24T12:00:31Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。