論文の概要: Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference
- arxiv url: http://arxiv.org/abs/2312.10193v2
- Date: Wed, 18 Dec 2024 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:56.089060
- Title: Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference
- Title(参考訳): Adaptive Computation Modules: 効率的な推論のための粒界条件計算
- Authors: Bartosz Wójcik, Alessio Devoto, Karol Pustelnik, Pasquale Minervini, Simone Scardapane,
- Abstract要約: 本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
ACMは、先行する学習者の出力を段階的に洗練する学習者列から構成される。追加のゲーティング機構は、各トークンに対して最適な学習者数を決定する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
- 参考スコア(独自算出の注目度): 12.371152982808914
- License:
- Abstract: While transformer models have been highly successful, they are computationally inefficient. We observe that for each layer, the full width of the layer may be needed only for a small subset of tokens inside a batch and that the "effective" width needed to process a token can vary from layer to layer. Motivated by this observation, we introduce the Adaptive Computation Module (ACM), a generic module that dynamically adapts its computational load to match the estimated difficulty of the input on a per-token basis. An ACM consists of a sequence of learners that progressively refine the output of their preceding counterparts. An additional gating mechanism determines the optimal number of learners to execute for each token. We also propose a distillation technique to replace any pre-trained model with an "ACMized" variant. Our evaluation of transformer models in computer vision and speech recognition demonstrates that substituting layers with ACMs significantly reduces inference costs without degrading the downstream accuracy for a wide interval of user-defined budgets.
- Abstract(参考訳): トランスモデルは非常に成功したが、計算的に非効率である。
各レイヤにおいて、各レイヤの完全な幅は、バッチ内のトークンの小さなサブセットに対してのみ必要であり、トークンを処理するのに必要な"効率的な"幅は、レイヤごとに異なる可能性があることを観察する。
そこで本研究では,適応計算モジュール (Adaptive Computation Module, ACM) を導入する。
ACMは、先行する学習者の出力を段階的に洗練する一連の学習者から構成される。
追加のゲーティング機構は、各トークンに対して実行する学習者の最適な数を決定する。
また,事前学習したモデルに"ACMized"の変種を置き換える蒸留手法を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
関連論文リスト
- Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - FACM: Intermediate Layer Still Retain Effective Features against
Adversarial Examples [18.880398046794138]
ディープニューラルネットワーク(DNN)に対する強力な敵攻撃では、生成された敵の例がDNNに実装された分類器を誤解させる。
我々は,textbfFeature textbfAnalysis と textbfConditional textbfMatching textbfPrediction textbfDistribution (CMPD) 補正モジュールと決定モジュールを提案する。
我々のモデルは微調整によって達成でき、他のモデル固有の防御と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-02T08:36:47Z) - Cost Aggregation Is All You Need for Few-Shot Segmentation [28.23753949369226]
本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。
VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。
提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-22T06:18:51Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。