Fugu-MT 論文翻訳(概要): Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge

論文の概要: Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge

arxiv url: http://arxiv.org/abs/2407.05941v3
Date: Wed, 11 Sep 2024 21:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 21:20:46.326654
Title: Pruning One More Token is Enough: Leveraging Latency-Workload Non-Linearities for Vision Transformers on the Edge
Title（参考訳）: エッジ上のヴィジュアルトランスフォーマーにレイテンシ-ワークロード非Linearitiesを活用する
Authors: Nick John Eliopoulos, Purvish Jajal, James Davis, Gaowen Liu, George K. Thiravathukal, Yung-Hsiang Lu,
Abstract要約: 本稿では,小型ワークロードを対象としたエッジデバイスに視覚変換器を効率よくデプロイする方法について検討する。最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。第2に,非線形レイテンシ-ワークロード関係を利用してトークンプルーニングスケジュールを決定する。第3に,このスケジュールを利用したトレーニング不要のトークンプルーニング手法を示す。
参考スコア（独自算出の注目度）: 5.1946372711105315
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper investigates how to efficiently deploy vision transformers on edge devices for small workloads. Recent methods reduce the latency of transformer neural networks by removing or merging tokens, with small accuracy degradation. However, these methods are not designed with edge device deployment in mind: they do not leverage information about the latency-workload trends to improve efficiency. We address this shortcoming in our work. First, we identify factors that affect ViT latency-workload relationships. Second, we determine token pruning schedule by leveraging non-linear latency-workload relationships. Third, we demonstrate a training-free, token pruning method utilizing this schedule. We show other methods may increase latency by 2-30%, while we reduce latency by 9-26%. For similar latency (within 5.2% or 7ms) across devices we achieve 78.6%-84.5% ImageNet1K accuracy, while the state-of-the-art, Token Merging, achieves 45.8%-85.4%.
Abstract（参考訳）: 本稿では,小型ワークロードを対象としたエッジデバイスに視覚変換器を効率よくデプロイする方法について検討する。最近の手法では、トークンを除去またはマージすることで、トランスフォーマーニューラルネットワークのレイテンシを小さくする。しかし、これらの手法はエッジデバイスの配置を念頭に設計されておらず、レイテンシー-ワークロードのトレンドに関する情報を活用して効率を向上しない。私たちはこの欠点を我々の仕事で解決する。まず、ViTレイテンシー-ワークロードの関係に影響を与える要因を特定する。次に,非線形遅延-ワークロード関係を利用してトークンのプルーニングスケジュールを決定する。第3に、このスケジュールを利用したトレーニング不要なトークンプルーニング手法を実証する。他の手法ではレイテンシを2～30%増加させますが、レイテンシを9～26%削減します。デバイス間での同様のレイテンシ(5.2%または7ms)では、78.6%-84.5%のImageNet1K精度が達成され、最先端のToken Mergingは45.8%-85.4%である。

関連論文リスト

Hidden States as Early Signals: Step-level Trace Evaluation and Pruning for Efficient Test-Time Scaling [19.080366193748127]
大規模言語モデル(LLM)は、複数のトレースを生成することによって、テスト時間スケーリングを通じて推論能力を向上することができる。長い推論トレースと多重サンプリングの組み合わせは、相当な計算とエンドツーエンドのレイテンシをもたらす。隠れ状態を用いて推論ステップを評価する新しいプルーニングフレームワークであるStep-level Trace Evaluation and Pruningを提案する。
論文参考訳（メタデータ） (2026-01-14T02:54:55Z)
Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文参考訳（メタデータ） (2025-11-24T08:46:36Z)
Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文参考訳（メタデータ） (2025-09-29T15:52:08Z)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [52.10888685395448]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳（メタデータ） (2025-05-26T07:51:30Z)
Token Cropr: Faster ViTs for Quite a Few Tasks [12.97062850155708]
本稿では,タスク関連性に基づいてトークンをエンドツーエンドに選択する方法を学習する補助予測ヘッドを用いたトークンプルーナを提案する。画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションについて評価し,1.5～4倍の性能低下を示す。
論文参考訳（メタデータ） (2024-12-01T20:58:29Z)
FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文参考訳（メタデータ） (2023-11-09T19:33:50Z)
No Token Left Behind: Efficient Vision Transformer via Dynamic Token Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。 ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文参考訳（メタデータ） (2023-10-09T12:10:41Z)
Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。 TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文参考訳（メタデータ） (2023-04-21T02:59:30Z)
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文参考訳（メタデータ） (2023-03-24T17:58:32Z)
Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。 Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文参考訳（メタデータ） (2022-11-23T06:56:12Z)
Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-19T21:15:47Z)
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文参考訳（メタデータ） (2022-11-04T09:19:59Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:05:01Z)
Low-Latency Sequence-to-Sequence Speech Recognition and Translation by Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文参考訳（メタデータ） (2020-05-22T13:42:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。