Fugu-MT 論文翻訳(概要): Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference

論文の概要: Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference

arxiv url: http://arxiv.org/abs/2312.10193v1
Date: Fri, 15 Dec 2023 20:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 17:59:14.004136
Title: Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference
Title（参考訳）: Adaptive Computation Modules: 効率的な推論のための粒界条件計算
Authors: Bartosz W\'ojcik, Alessio Devoto, Karol Pustelnik, Pasquale Minervini, Simone Scardapane
Abstract要約: トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
参考スコア（独自算出の注目度）: 13.000030080938078
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The computational cost of transformer models makes them inefficient in low-latency or low-power applications. While techniques such as quantization or linear attention can reduce the computational load, they may incur a reduction in accuracy. In addition, globally reducing the cost for all inputs may be sub-optimal. We observe that for each layer, the full width of the layer may be needed only for a small subset of tokens inside a batch and that the "effective" width needed to process a token can vary from layer to layer. Motivated by this observation, we introduce the Adaptive Computation Module (ACM), a generic module that dynamically adapts its computational load to match the estimated difficulty of the input on a per-token basis. An ACM consists of a sequence of learners that progressively refine the output of their preceding counterparts. An additional gating mechanism determines the optimal number of learners to execute for each token. We also describe a distillation technique to replace any pre-trained model with an "ACMized" variant. The distillation phase is designed to be highly parallelizable across layers while being simple to plug-and-play into existing networks. Our evaluation of transformer models in computer vision and speech recognition demonstrates that substituting layers with ACMs significantly reduces inference costs without degrading the downstream accuracy for a wide interval of user-defined budgets.
Abstract（参考訳）: トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。量子化や線形注意といった手法は計算負荷を減少させるが、精度を低下させる可能性がある。さらに、グローバルに全ての入力のコストを削減することは、準最適かもしれない。各レイヤにおいて、各レイヤの完全な幅は、バッチ内のトークンの小さなサブセットに対してのみ必要であり、トークンを処理するのに必要な"効率的な"幅は、レイヤごとに異なる可能性があることを観察する。そこで本研究では,その計算負荷を動的に適応し,入力の難易度を推定値ごとに一致させる汎用モジュールである適応計算モジュール(acm)を提案する。 ACMは、先行する学習者の出力を段階的に洗練する一連の学習者から構成される。追加のゲーティング機構は、各トークンに対して実行する学習者の最適な数を決定する。また, 事前学習したモデルを「ACM化」変種に置き換える蒸留技術についても述べる。蒸留フェーズは、既存のネットワークへのプラグアンドプレイが簡単でありながら、レイヤー間で高い並列化が可能なように設計されている。コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。

関連論文リスト

SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文参考訳（メタデータ） (2024-10-14T14:32:55Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。 LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文参考訳（メタデータ） (2024-10-01T16:10:21Z)
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文参考訳（メタデータ） (2024-01-03T00:10:33Z)
Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-27T16:30:27Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
FACM: Intermediate Layer Still Retain Effective Features against Adversarial Examples [18.880398046794138]
ディープニューラルネットワーク(DNN)に対する強力な敵攻撃では、生成された敵の例がDNNに実装された分類器を誤解させる。我々は,textbfFeature textbfAnalysis と textbfConditional textbfMatching textbfPrediction textbfDistribution (CMPD) 補正モジュールと決定モジュールを提案する。我々のモデルは微調整によって達成でき、他のモデル固有の防御と組み合わせることができる。
論文参考訳（メタデータ） (2022-06-02T08:36:47Z)
Cost Aggregation Is All You Need for Few-Shot Segmentation [28.23753949369226]
本稿では,数発のセグメンテーションタスクに取り組むために,変圧器を用いたボリュームアグリゲーション(VAT)を提案する。 VATは畳み込みとトランスフォーマーの両方を使用して、クエリとサポートの間の高次元相関マップを効率的に処理する。提案手法は,意味対応タスクにおける標準ベンチマークにおいても,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-22T06:18:51Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文参考訳（メタデータ） (2020-11-14T09:51:51Z)
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文参考訳（メタデータ） (2020-10-14T12:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。