論文の概要: Turbocharge Speech Understanding with Pilot Inference
- arxiv url: http://arxiv.org/abs/2311.17065v3
- Date: Thu, 10 Oct 2024 20:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:04.822707
- Title: Turbocharge Speech Understanding with Pilot Inference
- Title(参考訳): パイロット推論によるターボチャージ音声理解
- Authors: Rongxiang Wang, Felix Xiaozhu Lin,
- Abstract要約: 本稿では,資源制約のあるエッジデバイス上での現代音声理解の促進を図る。
デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。
プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6~8コアでテストされており、SOTAの精度が得られます。
- 参考スコア(独自算出の注目度): 0.9699101045941684
- License:
- Abstract: Modern speech understanding (SU) runs a sophisticated pipeline: ingesting streaming voice input, the pipeline executes encoder-decoder based deep neural networks repeatedly; by doing so, the pipeline generates tentative outputs (called hypotheses), and periodically scores the hypotheses. This paper sets to accelerate SU on resource-constrained edge devices. It takes a hybrid approach: to speed up on-device execution; to offload inputs that are beyond the device's capacity. While the approach is well-known, we address SU's unique challenges with novel techniques: (1) late contextualization, which executes a model's attentive encoder in parallel to the input ingestion; (2) pilot inference, which mitigates the SU pipeline's temporal load imbalance; (3) autoregression offramps, which evaluate offloading decisions based on pilot inferences and hypotheses. Our techniques are compatible with existing speech models, pipelines, and frameworks; they can be applied independently or in combination. Our prototype, called PASU, is tested on Arm platforms with 6 - 8 cores: it delivers SOTA accuracy; it reduces the end-to-end latency by 2x and reduces the offloading needs by 2x.
- Abstract(参考訳): 現代の音声理解(SU)は洗練されたパイプラインを実行する: ストリーミング音声入力を取り込み、パイプラインはエンコーダ-デコーダベースのディープニューラルネットワークを繰り返し実行し、それによってパイプラインは仮の出力(仮説と呼ばれる)を生成し、仮説を定期的にスコアする。
本稿では,資源制約エッジデバイス上でのSUの高速化を図る。
デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。
アプローチはよく知られていますが,(1)入力の取り込みと平行してモデル注意エンコーダを実行する遅延文脈化,(2)SUパイプラインの時間的負荷不均衡を緩和するパイロット推論,(3)パイロットの推論と仮説に基づいたオフロード決定を評価する自動回帰オフランプといった,SUの独特な課題に対処する。
私たちの技術は既存の音声モデル、パイプライン、フレームワークと互換性があります。
プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6~8コアでテストされており、SOTAの精度が得られます。
関連論文リスト
- ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Complexity-Driven CNN Compression for Resource-constrained Edge AI [1.6114012813668934]
本稿では,CNNの層レベルでの複雑さを生かして,新しい,計算効率の高いプルーニングパイプラインを提案する。
パラメータ認識(PA)、FLOP認識(FA)、メモリ認識(MA)の3つのモードを定義し、CNNの汎用圧縮を導入する。
論文 参考訳(メタデータ) (2022-08-26T16:01:23Z) - Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。
オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。
深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:36:30Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。