論文の概要: Stick-breaking Attention
- arxiv url: http://arxiv.org/abs/2410.17980v1
- Date: Wed, 23 Oct 2024 15:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:15.221616
- Title: Stick-breaking Attention
- Title(参考訳): stick‐breaking
- Authors: Shawn Tan, Yikang Shen, Songlin Yang, Aaron Courville, Rameswar Panda,
- Abstract要約: 自己注意機構は伝統的にソフトマックス作用素に依存している。
顔長一般化問題を用いた現状の方法
スティック破砕法に基づく別の注意機構を提案する。
- 参考スコア(独自算出の注目度): 38.492552119793
- License:
- Abstract: The self-attention mechanism traditionally relies on the softmax operator, necessitating positional embeddings like RoPE, or position biases to account for token order. But current methods using still face length generalisation challenges. We propose an alternative attention mechanism based on the stick-breaking process: For each token before the current, we determine a break point $\beta_{i,j}$, which represents the proportion of the remaining stick to allocate to the current token. We repeat the process until the stick is fully allocated, resulting in a sequence of attention weights. This process naturally incorporates recency bias, which has linguistic motivations for grammar parsing (Shen et. al., 2017). We study the implications of replacing the conventional softmax-based attention mechanism with stick-breaking attention. We then discuss implementation of numerically stable stick-breaking attention and adapt Flash Attention to accommodate this mechanism. When used as a drop-in replacement for current softmax+RoPE attention systems, we find that stick-breaking attention performs competitively with current methods on length generalisation and downstream tasks. Stick-breaking also performs well at length generalisation, allowing a model trained with $2^{11}$ context window to perform well at $2^{14}$ with perplexity improvements.
- Abstract(参考訳): 自己保持機構は、伝統的にソフトマックス演算子、RoPEのような位置埋め込み、トークンの順序を考慮に入れた位置バイアスを必要とする。
しかし、現在の方法では、顔長の一般化が課題となっている。
我々は、スティックブレーキングプロセスに基づく別の注意機構を提案する: 現在のトークンに割り当てる残りのスティックの割合を表すブレークポイント$\beta_{i,j}$を決定する。
スティックが完全に割り当てられるまで、プロセスを繰り返します。
このプロセスには自然に、文法解析のための言語的モチベーションを持つ回帰バイアスが組み込まれている(Shen et al , 2017)。
従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。
次に、数値的に安定なスティックブレーキングアテンションの実装について議論し、このメカニズムに対応するためにFlashアテンションを適用する。
現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションは、長さ一般化や下流タスクにおける現在の手法と競合する。
スティックブレーキングは長さの一般化でも良好に機能し、2^{11}$コンテキストウインドウで訓練されたモデルが2^{14}$でうまく機能し、パープレキシティが向上する。
関連論文リスト
- Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models [4.497551890206997]
自己保持機構は、シーケンス長で2次スケールする。
LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。
SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
論文 参考訳(メタデータ) (2024-06-09T07:23:34Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z) - Input-length-shortening and text generation via attention values [1.8222946691865871]
我々は,第1層の注意和が,与えられたシーケンス内のトークンをフィルタリングするのに有効であることを示す。
また、元のシーケンスの約6%を保持するだけで86.5%の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-03-14T02:11:24Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Coarse-to-fine Q-attention with Tree Expansion [95.00518278458908]
粗いQ-アテンションは、粗いQ-アテンションで翻訳空間を識別し、サンプル効率の良いロボット操作を可能にする。
Q-アテンションは「粗い曖昧さ」に悩まされる - ボキセル化が著しく粗い場合、より微細な解像度で最初に調べることなく類似した物体を区別することは不可能である。
そこで本論文では,Q-アテンションを木として,各Q-アテンション深さにおけるトップkボクセルの値推定値の蓄積に利用することを提案する。
論文 参考訳(メタデータ) (2022-04-26T17:41:28Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。