論文の概要: MobileASR: A resource-aware on-device personalisation framework for
automatic speech recognition in mobile phones
- arxiv url: http://arxiv.org/abs/2306.09384v1
- Date: Thu, 15 Jun 2023 13:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 16:36:30.948278
- Title: MobileASR: A resource-aware on-device personalisation framework for
automatic speech recognition in mobile phones
- Title(参考訳): MobileASR:携帯電話の自動音声認識のためのリソース対応オンデバイスパーソナライゼーションフレームワーク
- Authors: Zitha Sasindran, Harsha Yelchuri, Pooja Rao, T. V. Prabhakar
- Abstract要約: 本稿では,携帯電話上で効果的にモデルを訓練することにより,ユーザ声のパーソナライズされたASRモデルを開発するための包括的方法論について述べる。
そこで本研究では,携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a comprehensive methodology for developing user-voice
personalised ASR models by effectively training models on mobile phones,
allowing user data and models to be stored and used locally. To achieve this,
we propose a resource-aware sub-model based training approach that considers
the RAM, and battery capabilities of mobile phones. We also investigate the
relationship between available resources and training time, highlighting the
effectiveness of using sub-models in such scenarios. By taking into account the
evaluation metric and battery constraints of the mobile phones, we are able to
perform efficient training and halt the process accordingly. To simulate real
users, we use speakers with various accents. The entire on-device training and
evaluation framework was then tested on various mobile phones across brands. We
show that fine-tuning the models and selecting the right hyperparameter values
is a trade-off between the lowest achievable performance metric, on-device
training time, and memory consumption. Overall, our methodology offers a
comprehensive solution for developing personalized ASR models while leveraging
the capabilities of mobile phones, and balancing the need for accuracy with
resource constraints.
- Abstract(参考訳): 本稿では,携帯電話上でモデルを効果的にトレーニングし,ユーザデータとモデルをローカルに保存・利用することによる,ユーザ音声パーソナライズしたasrモデル開発のための包括的方法論について述べる。
そこで本研究では,携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。
また、利用可能なリソースとトレーニング時間との関係についても検討し、そのようなシナリオでサブモデルを使うことの有効性を強調する。
携帯電話の評価基準とバッテリ制約を考慮して、効率的なトレーニングを実行し、そのプロセスを停止することができる。
実際のユーザをシミュレートするために、さまざまなアクセントのスピーカーを使用します。
オンデバイストレーニングと評価フレームワーク全体が、ブランド間のさまざまな携帯電話でテストされた。
モデルを微調整し、適切なハイパーパラメータ値を選択することは、最小の達成可能なパフォーマンス指標、オンデバイストレーニング時間、メモリ消費のトレードオフであることを示す。
本手法は,携帯電話の能力を活用しながらパーソナライズされたASRモデルを開発するための包括的ソリューションを提供し,精度とリソース制約のバランスをとる。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - On-device Training: A First Overview on Existing Systems [6.551096686706628]
リソース制約のあるデバイスにいくつかのモデルをデプロイする努力も行われている。
この研究は、デバイス上でモデルトレーニングを可能にする最先端のシステム研究を要約し、分析することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T19:22:29Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - MobileFaceSwap: A Lightweight Framework for Video Face Swapping [56.87690462046143]
主観的顔交換のための軽量IDN(IDN)を提案する。
提示されたIDNは0.50Mパラメータのみを含み、1フレームあたり0.33GのFLOPを必要とするため、携帯電話でリアルタイムのビデオ顔交換が可能である。
論文 参考訳(メタデータ) (2022-01-11T06:48:12Z) - Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A
Stackelberg Game Approach [54.28419430315478]
Mobile Edge Learningは、異種エッジデバイス上で機械学習モデルの分散トレーニングを可能にする。
MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。
そこで我々は2ラウンドのStackelbergゲームとしてオーケストレータとラーナーの相互作用を定式化するインセンティブ機構を提案する。
論文 参考訳(メタデータ) (2021-09-25T17:27:48Z) - Continual Learning at the Edge: Real-Time Training on Smartphone Devices [11.250227901473952]
本稿では,デバイス上でリアルタイムなパーソナライズを実現するために,ネイティブなAndroidアプリケーション上でのハイブリッド学習戦略(AR1*)の実装と展開について述べる。
我々のベンチマークはCORe50データセットの拡張に基づいており、ソリューションの有効性と有効性を示している。
論文 参考訳(メタデータ) (2021-05-24T12:00:31Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。