Fugu-MT 論文翻訳(概要): Breaking Down Power Barriers in On-Device Streaming ASR: Insights and Solutions

論文の概要: Breaking Down Power Barriers in On-Device Streaming ASR: Insights and Solutions

arxiv url: http://arxiv.org/abs/2402.13076v2
Date: Wed, 26 Feb 2025 05:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 19:53:12.462331
Title: Breaking Down Power Barriers in On-Device Streaming ASR: Insights and Solutions
Title（参考訳）: オンデバイスストリーミングASRにおける電力バリアの破壊:洞察と解決策
Authors: Yang Li, Yuan Shangguan, Yuhao Wang, Liangzhen Lai, Ernie Chang, Changsheng Zhao, Yangyang Shi, Vikas Chandra,
Abstract要約: 重みパラメータが消費電力に与える影響は,起動頻度やメモリ割り当てなどの要因によって異なることがわかった。本稿では,デバイス上での音声認識モデルを改善する設計原則を提案する。
参考スコア（独自算出の注目度）: 20.180037657388763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Power consumption plays a crucial role in on-device streaming speech recognition, significantly influencing the user experience. This study explores how the configuration of weight parameters in speech recognition models affects their overall energy efficiency. We found that the influence of these parameters on power consumption varies depending on factors such as invocation frequency and memory allocation. Leveraging these insights, we propose design principles that enhance on-device speech recognition models by reducing power consumption with minimal impact on accuracy. Our approach, which adjusts model components based on their specific energy sensitivities, achieves up to 47% lower energy usage while preserving comparable model accuracy and improving real-time performance compared to leading methods.
Abstract（参考訳）: デバイス上でのストリーミング音声認識において消費電力は重要な役割を担い、ユーザエクスペリエンスに大きな影響を及ぼす。本研究では,音声認識モデルにおける重みパラメータの設定が全体のエネルギー効率に与える影響について検討する。その結果,これらのパラメータが消費電力に与える影響は,実行頻度やメモリ割り当てなどの要因によって異なることがわかった。これらの知見を生かして,デバイス上での音声認識モデルを改善する設計原理を提案し,精度への影響を最小限に抑えて消費電力を削減する。提案手法は, モデル成分のエネルギー感受性に基づいてモデル成分を調整し, 最大47%の低エネルギー化を実現し, 比較モデル精度を保ち, 先行手法と比較して実時間性能を向上する。

関連論文リスト

Energy Efficiency in AI for 5G and Beyond: A DeepRx Case Study [0.276240219662896]
完全畳み込み型ResNetアーキテクチャに基づくディープラーニング受信機DeepRXのエネルギー消費量を評価する。主な貢献は、教師モデルの性能をエミュレートするがエネルギー消費を低減した、コンパクトなDeepRX学生モデルを訓練するための知識蒸留の応用である。蒸留モデルとスクラッチからトレーニングしたモデルのビット誤り率 (BER) と信号干渉・雑音比 (SINR) の値を比較することで, 性能を測定した。
論文参考訳（メタデータ） (2025-07-14T15:54:06Z)
Diffused Responsibility: Analyzing the Energy Consumption of Generative Text-to-Audio Diffusion Models [15.100667215184036]
我々は、7つの最先端テキストからオーディオへの拡散に基づく生成モデルのエネルギー使用量分析を行う。また,音質とエネルギー消費の最適バランスを同定することを目的とする。
論文参考訳（メタデータ） (2025-05-12T14:36:47Z)
Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文参考訳（メタデータ） (2025-04-05T17:45:42Z)
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings [1.5749416770494706]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて大幅に改善されている。 LLMはリソース集約型であり、トレーニングと推論の両方に広範な計算資源を必要とする。導入が加速するにつれて、LLMの持続性は重要な問題となっている。
論文参考訳（メタデータ） (2025-01-14T16:02:33Z)
Energy-Aware Dynamic Neural Inference [39.04688735618206]
エネルギーハーベスターと有限容量エネルギーストレージを備えたオンデバイス適応型推論システムを提案する。環境エネルギーの速度が増加するにつれて、エネルギー・信頼性を考慮した制御方式は精度を約5%向上させることが示されている。我々は、信頼性を意識し、認識できないコントローラを理論的に保証する原則的なポリシーを導出する。
論文参考訳（メタデータ） (2024-11-04T16:51:22Z)
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文参考訳（メタデータ） (2024-09-19T16:23:03Z)
Normalizing Energy Consumption for Hardware-Independent Evaluation [9.658615045493734]
本稿では,異なるハードウェアプラットフォーム間でのエネルギー消費の正規化手法を提案する。提案手法は,基準点数,回帰値の種類,および計算量を含めることが正規化過程に大きく影響を与えることを示す。
論文参考訳（メタデータ） (2024-09-09T13:38:00Z)
Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment [0.0]
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
論文参考訳（メタデータ） (2024-05-02T05:09:07Z)
Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文参考訳（メタデータ） (2023-10-19T15:13:58Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文参考訳（メタデータ） (2023-09-14T19:01:08Z)
PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。微分不可能な時間的音響パラメータを同定する。時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文参考訳（メタデータ） (2023-02-16T05:17:06Z)
TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文参考訳（メタデータ） (2023-02-16T04:57:11Z)
LEAF + AIO: Edge-Assisted Energy-Aware Object Detection for Mobile Augmented Reality [77.00418462388525]
モバイル拡張現実(MAR)アプリケーションは非常にエネルギーを消費する。我々は、MARデバイスが動的に構成を変更することができるエッジベースのエネルギー対応MARシステムを設計する。提案した動的MAR構成適応は、複数のMARクライアントのフレーム当たりのエネルギー消費を最小限に抑えることができる。
論文参考訳（メタデータ） (2022-05-27T06:11:50Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:09:49Z)
On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文参考訳（メタデータ） (2021-01-19T02:04:00Z)
Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文参考訳（メタデータ） (2020-11-09T05:22:57Z)
AdaSense: Adaptive Low-Power Sensing and Activity Recognition for Wearable Devices [2.0119495998780925]
AdaSenseは、人間活動認識のためのセンシング、特徴抽出、分類を併用したフレームワークである。このフレームワークは、精度とエネルギートレードオフのパレットフロンティアを表す構成を選択する。提案手法は, センサの消費電力を69%削減し, 動作認識精度は1.5%以下である。
論文参考訳（メタデータ） (2020-06-10T15:17:11Z)
Audio Impairment Recognition Using a Correlation-Based Feature Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文参考訳（メタデータ） (2020-03-22T13:34:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。