論文の概要: Constant Memory Attention Block
- arxiv url: http://arxiv.org/abs/2306.12599v1
- Date: Wed, 21 Jun 2023 22:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:54:20.997395
- Title: Constant Memory Attention Block
- Title(参考訳): 定記憶注意ブロック
- Authors: Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio,
Mohamed Osama Ahmed
- Abstract要約: Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 74.38724530521277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern foundation model architectures rely on attention mechanisms to
effectively capture context. However, these methods require linear or quadratic
memory in terms of the number of inputs/datapoints, limiting their
applicability in low-compute domains. In this work, we propose Constant Memory
Attention Block (CMAB), a novel general-purpose attention block that computes
its output in constant memory and performs updates in constant computation.
Highlighting CMABs efficacy, we introduce methods for Neural Processes and
Temporal Point Processes. Empirically, we show our proposed methods achieve
results competitive with state-of-the-art while being significantly more memory
efficient.
- Abstract(参考訳): 現代の基礎モデルアーキテクチャは、コンテキストを効果的に捉えるための注意機構に依存している。
しかし、これらの手法は入力/データポイントの数の観点から線形または二次記憶を必要とするため、低計算領域での適用性が制限される。
本研究では,その出力を定数メモリで計算し,定数計算で更新を行う新しい汎用注意ブロックである constant memory attention block (cmab) を提案する。
cmabsの有効性を強調するために,神経過程と時間点過程の手法を紹介する。
実験により,提案手法は最先端技術と競合し,メモリ効率は著しく向上した。
関連論文リスト
- Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention [6.713196608291278]
本研究では,トランスフォーマーをベースとしたLarge Language Modelを,メモリと計算を境界とした無限に長い入力に拡張する効率的な手法を提案する。
提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
論文 参考訳(メタデータ) (2024-04-10T16:18:42Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Memory Efficient Neural Processes via Constant Memory Attention Block [55.82269384896986]
CMANP(Constant Memory Attentive Neural Processs)は、NPの変種である。
我々は,CMANPが従来の手法よりもはるかにメモリ効率が良く,NPベンチマークで最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-05-23T23:10:19Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。