Fugu-MT 論文翻訳(概要): Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices

論文の概要: Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices

arxiv url: http://arxiv.org/abs/2506.18035v1
Date: Sun, 22 Jun 2025 13:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.71098
Title: Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices
Title（参考訳）: Splitformer:エッジデバイス上での自動音声認識のための早期出力アーキテクチャの改良
Authors: Maxence Lasbordes, Daniele Falavigna, Alessio Brutti,
Abstract要約: 音声認識ソフトウェアは、リソースを意識した推論中にニューラルネットワークの計算負荷を調整する必要がある。早期の外部アーキテクチャは、入力をレイヤのサブセットで処理し、中間ブランチで終了する。自動音声認識アプリケーションには、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャがある。このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えて大幅に向上することを示す。
参考スコア（独自算出の注目度）: 11.05223262950967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to dynamically adjust the computational load of neural models during inference in a resource aware manner is crucial for on-device processing scenarios, characterised by limited and time-varying computational resources. Early-exit architectures represent an elegant and effective solution, since they can process the input with a subset of their layers, exiting at intermediate branches (the upmost layers are hence removed from the model). From a different perspective, for automatic speech recognition applications there are memory-efficient neural architectures that apply variable frame rate analysis, through downsampling/upsampling operations in the middle layers, reducing the overall number of operations and improving significantly the performance on well established benchmarks. One example is the Zipformer. However, these architectures lack the modularity necessary to inject early-exit branches. With the aim of improving the performance in early-exit models, we propose introducing parallel layers in the architecture that process downsampled versions of their inputs. % in conjunction with standard processing layers. We show that in this way the speech recognition performance on standard benchmarks significantly improve, at the cost of a small increase in the overall number of model parameters but without affecting the inference time.
Abstract（参考訳）: リソース認識方式で推論中のニューラルモデルの計算負荷を動的に調整する能力は、制限された時間変化の計算リソースによって特徴づけられるオンデバイス処理シナリオにおいて不可欠である。アーリーエグジットアーキテクチャは、レイヤのサブセットで入力を処理できるため、エレガントで効果的なソリューションであり、中間ブランチで終了する(したがって最上位レイヤはモデルから削除される)。異なる視点から見ると、自動音声認識アプリケーションには、中間層のダウンサンプリング/アップサンプリング操作を通じて、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャが存在し、全体の操作数を削減し、確立されたベンチマークのパフォーマンスを大幅に改善する。一例としてZipformerがある。しかし、これらのアーキテクチャは早期のブランチを注入するのに必要なモジュラリティを欠いている。初期出力モデルの性能向上を目的として,入力のサンプル化処理を行う並列層の導入を提案する。 %であった。このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えながら、推論時間に影響を与えることなく、大幅に向上することを示す。

関連論文リスト

Scaling Linear Attention with Sparse State Expansion [58.161410995744596]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文参考訳（メタデータ） (2025-07-22T13:27:31Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Large Language Model Partitioning for Low-Latency Inference at the Edge [6.019511429258932]
自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。本稿では,トークン生成時に一定間隔で分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。
論文参考訳（メタデータ） (2025-05-05T10:16:16Z)
Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。 AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文参考訳（メタデータ） (2024-11-21T02:15:52Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文参考訳（メタデータ） (2023-09-18T07:45:16Z)
Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文参考訳（メタデータ） (2023-06-20T03:00:22Z)
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文参考訳（メタデータ） (2022-03-02T15:25:27Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文参考訳（メタデータ） (2020-05-10T06:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。