論文の概要: Efficient Deep Speech Understanding at the Edge
- arxiv url: http://arxiv.org/abs/2311.17065v2
- Date: Mon, 4 Dec 2023 15:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:47:57.012117
- Title: Efficient Deep Speech Understanding at the Edge
- Title(参考訳): エッジにおける高能率深部音声理解
- Authors: Rongxiang Wang and Felix Xiaozhu Lin
- Abstract要約: 本稿では,限られたリソースを持つエッジデバイス上での音声理解を強化することを目的とする。
ハイブリッド戦略を採用した当社のアプローチは,デバイス上での実行と入力のオフロードの高速化に重点を置いている。
XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を実証しました。
- 参考スコア(独自算出の注目度): 1.145820303039203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contemporary speech understanding (SU), a sophisticated pipeline is
employed, encompassing the ingestion of streaming voice input. The pipeline
executes beam search iteratively, invoking a deep neural network to generate
tentative outputs (referred to as hypotheses) in an autoregressive manner.
Periodically, the pipeline assesses attention and Connectionist Temporal
Classification (CTC) scores.
This paper aims to enhance SU performance on edge devices with limited
resources. Adopting a hybrid strategy, our approach focuses on accelerating
on-device execution and offloading inputs surpassing the device's capacity.
While this approach is established, we tackle SU's distinctive challenges
through innovative techniques: (1) Late Contextualization: This involves the
parallel execution of a model's attentive encoder during input ingestion. (2)
Pilot Inference: Addressing temporal load imbalances in the SU pipeline, this
technique aims to mitigate them effectively. (3) Autoregression Offramps:
Decisions regarding offloading are made solely based on hypotheses, presenting
a novel approach.
These techniques are designed to seamlessly integrate with existing speech
models, pipelines, and frameworks, offering flexibility for independent or
combined application. Collectively, they form a hybrid solution for edge SU.
Our prototype, named XYZ, has undergone testing on Arm platforms featuring 6 to
8 cores, demonstrating state-of-the-art accuracy. Notably, it achieves a 2x
reduction in end-to-end latency and a corresponding 2x decrease in offloading
requirements.
- Abstract(参考訳): 現代音声理解(su)では、ストリーミング音声入力の取り込みを含む洗練されたパイプラインが採用されている。
パイプラインはビームサーチを繰り返し実行し、ディープニューラルネットワークを呼び出し、自己回帰的に仮出力(仮説と呼ばれる)を生成する。
定期的に、パイプラインは注意力と接続性時間分類(CTC)のスコアを評価する。
本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。
ハイブリッド戦略を採用することで、デバイス上での実行を加速し、デバイスの能力を超える入力をオフロードすることに注力する。
1)後期文脈化:入力の取り込み中にモデルの注意エンコーダを並列実行することを含む。
2)パイロット推論:SUパイプラインの時間的負荷不均衡に対処し,効率よく軽減することを目的とする。
3)自己回帰オフランプ(autoregression offramps): オフロードに関する決定は仮説のみに基づいて行われ、新しいアプローチを示す。
これらのテクニックは、既存の音声モデル、パイプライン、フレームワークとシームレスに統合するように設計されており、独立したアプリケーションや複合アプリケーションの柔軟性を提供する。
集合的に、エッジSUのハイブリッド溶液を形成する。
XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を示している。
特に、エンドツーエンドのレイテンシが2倍削減され、オフロード要件が2倍削減される。
関連論文リスト
- ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP [13.370813866319669]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解(SSWP)ペアのコントラッシブ・テキスト・プレトレーニングを提案する。
第2段階では、事前訓練されたエンコーダで構成されるマルチモーダル・プロソディアノテータを構築し、単純で効果的なテキスト音声特徴融合方式を提案する。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。
オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。
深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:36:30Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。