論文の概要: Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference
- arxiv url: http://arxiv.org/abs/2312.10193v1
- Date: Fri, 15 Dec 2023 20:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:59:14.004136
- Title: Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference
- Title(参考訳): Adaptive Computation Modules: 効率的な推論のための粒界条件計算
- Authors: Bartosz W\'ojcik, Alessio Devoto, Karol Pustelnik, Pasquale Minervini,
Simone Scardapane
- Abstract要約: トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
- 参考スコア(独自算出の注目度): 13.000030080938078
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The computational cost of transformer models makes them inefficient in
low-latency or low-power applications. While techniques such as quantization or
linear attention can reduce the computational load, they may incur a reduction
in accuracy. In addition, globally reducing the cost for all inputs may be
sub-optimal. We observe that for each layer, the full width of the layer may be
needed only for a small subset of tokens inside a batch and that the
"effective" width needed to process a token can vary from layer to layer.
Motivated by this observation, we introduce the Adaptive Computation Module
(ACM), a generic module that dynamically adapts its computational load to match
the estimated difficulty of the input on a per-token basis. An ACM consists of
a sequence of learners that progressively refine the output of their preceding
counterparts. An additional gating mechanism determines the optimal number of
learners to execute for each token. We also describe a distillation technique
to replace any pre-trained model with an "ACMized" variant. The distillation
phase is designed to be highly parallelizable across layers while being simple
to plug-and-play into existing networks. Our evaluation of transformer models
in computer vision and speech recognition demonstrates that substituting layers
with ACMs significantly reduces inference costs without degrading the
downstream accuracy for a wide interval of user-defined budgets.
- Abstract(参考訳): トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
量子化や線形注意といった手法は計算負荷を減少させるが、精度を低下させる可能性がある。
さらに、グローバルに全ての入力のコストを削減することは、準最適かもしれない。
各レイヤにおいて、各レイヤの完全な幅は、バッチ内のトークンの小さなサブセットに対してのみ必要であり、トークンを処理するのに必要な"効率的な"幅は、レイヤごとに異なる可能性があることを観察する。
そこで本研究では,その計算負荷を動的に適応し,入力の難易度を推定値ごとに一致させる汎用モジュールである適応計算モジュール(acm)を提案する。
ACMは、先行する学習者の出力を段階的に洗練する一連の学習者から構成される。
追加のゲーティング機構は、各トークンに対して実行する学習者の最適な数を決定する。
また, 事前学習したモデルを「ACM化」変種に置き換える蒸留技術についても述べる。
蒸留フェーズは、既存のネットワークへのプラグアンドプレイが簡単でありながら、レイヤー間で高い並列化が可能なように設計されている。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
関連論文リスト
- TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - Accelerating Part-Scale Simulation in Liquid Metal Jet Additive
Manufacturing via Operator Learning [0.0]
部分スケールの予測は多くの小規模シミュレーションを必要とする。
LMJにおける液滴の合体性を記述するモデルとして, 混合圧縮性流体流, 熱伝達, 相変化方程式がある。
我々は,液滴の合体過程の初期状態と最終状態のマッピングを演算子学習アプローチで学習する。
論文 参考訳(メタデータ) (2022-02-02T17:24:16Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks [0.0]
本稿では,多経路完全連結パターン(MPFC)という概念を導入し,位相パターンの相互依存性,精度,効率性を再考する。
MPFCにインスパイアされた動的クローントランス (DCT) と呼ばれるデュアルブランチモジュールを提案し、入力から複数の複製を生成する。
論文 参考訳(メタデータ) (2021-06-12T13:42:28Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。