論文の概要: ABC: Attention with Bounded-memory Control
- arxiv url: http://arxiv.org/abs/2110.02488v1
- Date: Wed, 6 Oct 2021 03:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 04:23:16.025714
- Title: ABC: Attention with Bounded-memory Control
- Title(参考訳): ABC: 境界メモリ制御による注意
- Authors: Hao Peng, Jungo Kasai, Nikolaos Pappas, Dani Yogatama, Zhaofeng Wu,
Lingpeng Kong, Roy Schwartz, Noah A. Smith
- Abstract要約: 我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
- 参考スコア(独自算出の注目度): 67.40631793251997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have achieved state-of-the-art results on a variety
of sequence modeling tasks. However, their attention mechanism comes with a
quadratic complexity in sequence lengths, making the computational overhead
prohibitive, especially for long sequences. Attention context can be seen as a
random-access memory with each token taking a slot. Under this perspective, the
memory size grows linearly with the sequence length, and so does the overhead
of reading from it. One way to improve the efficiency is to bound the memory
size. We show that disparate approaches can be subsumed into one abstraction,
attention with bounded-memory control (ABC), and they vary in their
organization of the memory. ABC reveals new, unexplored possibilities. First,
it connects several efficient attention variants that would otherwise seem
apart. Second, this abstraction gives new insights--an established approach
(Wang et al., 2020b) previously thought to be not applicable in causal
attention, actually is. Last, we present a new instance of ABC, which draws
inspiration from existing ABC approaches, but replaces their heuristic
memory-organizing functions with a learned, contextualized one. Our experiments
on language modeling, machine translation, and masked language model finetuning
show that our approach outperforms previous efficient attention models;
compared to the strong transformer baselines, it significantly improves the
inference time and space efficiency with no or negligible accuracy loss.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、様々なシーケンスモデリングタスクで最先端の結果を達成した。
しかし、それらの注意機構は、列長の2次複雑さを伴い、特に長い列では計算オーバーヘッドが禁止される。
注意コンテキストは、各トークンがスロットを取るランダムアクセスメモリとして見ることができる。
この観点では、メモリサイズはシーケンス長とともに線形に増大し、それからの読み込みのオーバーヘッドも増大する。
効率を改善する1つの方法は、メモリサイズをバインドすることです。
我々は、異なるアプローチをひとつの抽象概念、abc(bounded-memory control)の注意にまとめることができることを示し、それらはメモリの組織によって異なる。
ABCは新たな可能性を明らかにしている。
ひとつは、別々に思える効率的なアテンションのバリエーションを複数つなぐことだ。
第2に、この抽象化は、これまで因果関係の注意に当てはまらないと考えられていた、確立されたアプローチ(wang et al., 2020b)に新たな洞察を与えます。
最後に、既存のABCアプローチからインスピレーションを得たABCの新しい事例を示すが、そのヒューリスティックなメモリ構成関数を学習された文脈化関数に置き換える。
言語モデル,機械翻訳,マスキング言語モデルの微調整に関する実験では,従来の効率的な注意モデルよりも優れており,強力なトランスフォーマーベースラインと比較すると,精度を損なうことなく推定時間と空間効率を大幅に向上させる。
関連論文リスト
- Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences [51.965994405124455]
人間は異なるシーケンスで抽象パターンを学習し、無関係な詳細をフィルタリングする。
多くのシーケンス学習モデルには抽象化能力がないため、メモリの非効率性や転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
論文 参考訳(メタデータ) (2024-10-27T18:13:07Z) - Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention [6.713196608291278]
本研究では,トランスフォーマーをベースとしたLarge Language Modelを,メモリと計算を境界とした無限に長い入力に拡張する効率的な手法を提案する。
提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
論文 参考訳(メタデータ) (2024-04-10T16:18:42Z) - Simple linear attention language models balance the recall-throughput
tradeoff [40.08746299497935]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Solving Continuous Control with Episodic Memory [1.9493449206135294]
エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。
本研究の目的は, エピソード記憶を連続制御におけるエージェントの性能向上に有効か, という問いに答えることである。
論文 参考訳(メタデータ) (2021-06-16T14:51:39Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。