論文の概要: Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs
- arxiv url: http://arxiv.org/abs/2307.14988v1
- Date: Thu, 27 Jul 2023 16:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 13:52:40.744192
- Title: Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs
- Title(参考訳): インクリメンタル計算可能なニューラルネットワーク:動的入力の効率的な推論
- Authors: Or Sharir and Anima Anandkumar
- Abstract要約: ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 75.40636935415601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning often faces the challenge of efficiently processing dynamic
inputs, such as sensor data or user inputs. For example, an AI writing
assistant is required to update its suggestions in real time as a document is
edited. Re-running the model each time is expensive, even with compression
techniques like knowledge distillation, pruning, or quantization. Instead, we
take an incremental computing approach, looking to reuse calculations as the
inputs change. However, the dense connectivity of conventional architectures
poses a major obstacle to incremental computation, as even minor input changes
cascade through the network and restrict information reuse. To address this, we
use vector quantization to discretize intermediate values in the network, which
filters out noisy and unnecessary modifications to hidden neurons, facilitating
the reuse of their values. We apply this approach to the transformers
architecture, creating an efficient incremental inference algorithm with
complexity proportional to the fraction of the modified inputs. Our experiments
with adapting the OPT-125M pre-trained language model demonstrate comparable
accuracy on document classification while requiring 12.1X (median) fewer
operations for processing sequences of atomic edits.
- Abstract(参考訳): ディープラーニングは、センサーデータやユーザ入力といった動的入力を効率的に処理するという課題に直面することが多い。
例えば、ドキュメントが編集されると、AI書き込みアシスタントが提案をリアルタイムで更新する必要がある。
知識の蒸留、刈り取り、量子化といった圧縮技術でも、毎回モデルを再実行することは高価です。
代わりに、インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
しかし、従来のアーキテクチャの密結合はインクリメンタルな計算において大きな障害となり、小さな入力でもネットワークを通してカスケードされ、情報の再利用が制限される。
これに対処するために、ベクトル量子化を用いてネットワーク内の中間値の識別を行い、隠れたニューロンに対するノイズや不要な修正をフィルタリングし、それらの値の再利用を容易にする。
このアプローチをトランスフォーマーアーキテクチャに適用し、修正された入力の分数に比例する複雑性を持つ効率的な漸進的推論アルゴリズムを作成する。
OPT-125M事前訓練言語モデルの適応実験は、文書分類において同等の精度を示し、アトミック編集のシーケンス処理には12.1X (median) の演算を少なくする。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference [13.000030080938078]
トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Quantization of Deep Neural Networks to facilitate self-correction of
weights on Phase Change Memory-based analog hardware [0.0]
乗法重みの集合を近似するアルゴリズムを開発する。
これらの重みは、性能の損失を最小限に抑えながら、元のネットワークの重みを表現することを目的としている。
その結果、オンチップパルス発生器と組み合わせると、私たちの自己補正ニューラルネットワークはアナログ認識アルゴリズムで訓練されたものと同等に機能することがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:47:25Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。