Fugu-MT 論文翻訳(概要): Efficient Deep Speech Understanding at the Edge

論文の概要: Efficient Deep Speech Understanding at the Edge

arxiv url: http://arxiv.org/abs/2311.17065v1
Date: Wed, 22 Nov 2023 17:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-03 13:07:55.644250
Title: Efficient Deep Speech Understanding at the Edge
Title（参考訳）: エッジにおける高能率深部音声理解
Authors: Rongxiang Wang and Felix Lin
Abstract要約: 音声理解は、リアルタイム音声入力をキャプチャする洗練されたパイプラインを含む。本稿では,限られた資源を持つエッジデバイス上でのSU性能の向上を目的とする。我々は、SUの独特な課題に特に対処する革新的なソリューションを紹介します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contemporary Speech Understanding (SU) involves a sophisticated pipeline: capturing real-time voice input, the pipeline encompasses a deep neural network with an encoder-decoder architecture enhanced by beam search. This network periodically assesses attention and Connectionist Temporal Classification (CTC) scores in its autoregressive output. This paper aims to enhance SU performance on edge devices with limited resources. It pursues two intertwined goals: accelerating on-device execution and efficiently handling inputs that surpass the on-device model's capacity. While these objectives are well-established, we introduce innovative solutions that specifically address SU's distinctive challenges: 1. Late contextualization: Enables the parallel execution of a model's attentive encoder during input ingestion. 2. Pilot decoding: Alleviates temporal load imbalances. 3. Autoregression offramps: Facilitate offloading decisions based on partial output sequences. Our techniques seamlessly integrate with existing SU models, pipelines, and frameworks, allowing for independent or combined application. Together, they constitute a hybrid solution for edge SU, exemplified by our prototype, XYZ. Evaluated on platforms equipped with 6-8 Arm cores, our system achieves State-of-the-Art (SOTA) accuracy, reducing end-to-end latency by 2x and halving offloading requirements.
Abstract（参考訳）: リアルタイム音声入力をキャプチャするパイプラインは、ビーム検索によって拡張されたエンコーダ-デコーダアーキテクチャを備えたディープニューラルネットワークを包含する。このネットワークは、注意度を定期的に評価し、コネクショニストの時間分類(CTC)は自己回帰出力のスコアを出力する。本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。デバイス上での実行を加速し、デバイス上のモデルの能力を超える入力を効率的に処理する。これらの目標は十分に確立されているが、su特有の課題を具体的に解決する革新的なソリューションを導入する。 1. 遅延コンテキスト化: 入力の取り込み中にモデルの注意エンコーダの並列実行を可能にする。 2. パイロットデコード: 一時的な負荷不均衡を緩和する。 3. 自己回帰オフランプ:部分出力シーケンスに基づいてオフロード決定を行う。我々の技術は既存のSUモデル、パイプライン、フレームワークとシームレスに統合され、独立的または複合的なアプリケーションを可能にします。これらを合わせて,プロトタイプであるXYZで実証したエッジSUのハイブリッドソリューションを構成する。 6-8のArmコアを備えたプラットフォーム上で評価を行い,本システムではSOTA(State-of-the-Art)の精度を実現し,エンドツーエンドのレイテンシを2倍に削減し,オフロード要求を半減する。

関連論文リスト

PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding [4.734824660843965]
PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。 PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-05-02T20:29:31Z)
PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models [20.212041940314016]
パイプライン配置における単一タスクの低グローバルなリソース利用に対処するため,PipeDecという投機的復号化フレームワークを提案する。動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。 LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
論文参考訳（メタデータ） (2025-04-05T08:31:10Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。 APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。 APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文参考訳（メタデータ） (2024-06-17T19:22:04Z)
ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文参考訳（メタデータ） (2024-03-07T08:30:26Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文参考訳（メタデータ） (2023-11-10T02:18:33Z)
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文参考訳（メタデータ） (2023-11-08T19:57:10Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。第1パスデコーダのサブワード予測によりモデル性能を向上させる。提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文参考訳（メタデータ） (2022-12-15T18:58:28Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。