Fugu-MT 論文翻訳(概要): Efficient Deep Speech Understanding at the Edge

論文の概要: Efficient Deep Speech Understanding at the Edge

arxiv url: http://arxiv.org/abs/2311.17065v2
Date: Mon, 4 Dec 2023 15:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:47:57.012117
Title: Efficient Deep Speech Understanding at the Edge
Title（参考訳）: エッジにおける高能率深部音声理解
Authors: Rongxiang Wang and Felix Xiaozhu Lin
Abstract要約: 本稿では,限られたリソースを持つエッジデバイス上での音声理解を強化することを目的とする。ハイブリッド戦略を採用した当社のアプローチは,デバイス上での実行と入力のオフロードの高速化に重点を置いている。 XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を実証しました。
参考スコア（独自算出の注目度）: 1.145820303039203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In contemporary speech understanding (SU), a sophisticated pipeline is employed, encompassing the ingestion of streaming voice input. The pipeline executes beam search iteratively, invoking a deep neural network to generate tentative outputs (referred to as hypotheses) in an autoregressive manner. Periodically, the pipeline assesses attention and Connectionist Temporal Classification (CTC) scores. This paper aims to enhance SU performance on edge devices with limited resources. Adopting a hybrid strategy, our approach focuses on accelerating on-device execution and offloading inputs surpassing the device's capacity. While this approach is established, we tackle SU's distinctive challenges through innovative techniques: (1) Late Contextualization: This involves the parallel execution of a model's attentive encoder during input ingestion. (2) Pilot Inference: Addressing temporal load imbalances in the SU pipeline, this technique aims to mitigate them effectively. (3) Autoregression Offramps: Decisions regarding offloading are made solely based on hypotheses, presenting a novel approach. These techniques are designed to seamlessly integrate with existing speech models, pipelines, and frameworks, offering flexibility for independent or combined application. Collectively, they form a hybrid solution for edge SU. Our prototype, named XYZ, has undergone testing on Arm platforms featuring 6 to 8 cores, demonstrating state-of-the-art accuracy. Notably, it achieves a 2x reduction in end-to-end latency and a corresponding 2x decrease in offloading requirements.
Abstract（参考訳）: 現代音声理解(su)では、ストリーミング音声入力の取り込みを含む洗練されたパイプラインが採用されている。パイプラインはビームサーチを繰り返し実行し、ディープニューラルネットワークを呼び出し、自己回帰的に仮出力(仮説と呼ばれる)を生成する。定期的に、パイプラインは注意力と接続性時間分類(CTC)のスコアを評価する。本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。ハイブリッド戦略を採用することで、デバイス上での実行を加速し、デバイスの能力を超える入力をオフロードすることに注力する。 1)後期文脈化:入力の取り込み中にモデルの注意エンコーダを並列実行することを含む。 2)パイロット推論:SUパイプラインの時間的負荷不均衡に対処し,効率よく軽減することを目的とする。 3)自己回帰オフランプ(autoregression offramps): オフロードに関する決定は仮説のみに基づいて行われ、新しいアプローチを示す。これらのテクニックは、既存の音声モデル、パイプライン、フレームワークとシームレスに統合するように設計されており、独立したアプリケーションや複合アプリケーションの柔軟性を提供する。集合的に、エッジSUのハイブリッド溶液を形成する。 XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を示している。特に、エンドツーエンドのレイテンシが2倍削減され、オフロード要件が2倍削減される。

関連論文リスト

PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。 PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-05-02T20:29:31Z)
PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models [20.212041940314016]
パイプライン配置における単一タスクの低グローバルなリソース利用に対処するため,PipeDecという投機的復号化フレームワークを提案する。動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。 LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
論文参考訳（メタデータ） (2025-04-05T08:31:10Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。 APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。 APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文参考訳（メタデータ） (2024-06-17T19:22:04Z)
ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文参考訳（メタデータ） (2024-03-07T08:30:26Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文参考訳（メタデータ） (2023-11-10T02:18:33Z)
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文参考訳（メタデータ） (2023-11-08T19:57:10Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。第1パスデコーダのサブワード予測によりモデル性能を向上させる。提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文参考訳（メタデータ） (2022-12-15T18:58:28Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。