Fugu-MT 論文翻訳(概要): Stick-breaking Attention

論文の概要: Stick-breaking Attention

arxiv url: http://arxiv.org/abs/2410.17980v1
Date: Wed, 23 Oct 2024 15:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.523087
Title: Stick-breaking Attention
Title（参考訳）: stick‐breaking
Authors: Shawn Tan, Yikang Shen, Songlin Yang, Aaron Courville, Rameswar Panda,
Abstract要約: 自己注意機構は伝統的にソフトマックス作用素に依存している。顔長一般化問題を用いた現状の方法スティック破砕法に基づく別の注意機構を提案する。
参考スコア（独自算出の注目度）: 38.492552119793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The self-attention mechanism traditionally relies on the softmax operator, necessitating positional embeddings like RoPE, or position biases to account for token order. But current methods using still face length generalisation challenges. We propose an alternative attention mechanism based on the stick-breaking process: For each token before the current, we determine a break point $\beta_{i,j}$, which represents the proportion of the remaining stick to allocate to the current token. We repeat the process until the stick is fully allocated, resulting in a sequence of attention weights. This process naturally incorporates recency bias, which has linguistic motivations for grammar parsing (Shen et. al., 2017). We study the implications of replacing the conventional softmax-based attention mechanism with stick-breaking attention. We then discuss implementation of numerically stable stick-breaking attention and adapt Flash Attention to accommodate this mechanism. When used as a drop-in replacement for current softmax+RoPE attention systems, we find that stick-breaking attention performs competitively with current methods on length generalisation and downstream tasks. Stick-breaking also performs well at length generalisation, allowing a model trained with $2^{11}$ context window to perform well at $2^{14}$ with perplexity improvements.
Abstract（参考訳）: 自己保持機構は、伝統的にソフトマックス演算子、RoPEのような位置埋め込み、トークンの順序を考慮に入れた位置バイアスを必要とする。しかし、現在の方法では、顔長の一般化が課題となっている。我々は、スティックブレーキングプロセスに基づく別の注意機構を提案する: 現在のトークンに割り当てる残りのスティックの割合を表すブレークポイント$\beta_{i,j}$を決定する。スティックが完全に割り当てられるまで、プロセスを繰り返します。このプロセスには自然に、文法解析のための言語的モチベーションを持つ回帰バイアスが組み込まれている(Shen et al , 2017)。従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。次に、数値的に安定なスティックブレーキングアテンションの実装について議論し、このメカニズムに対応するためにFlashアテンションを適用する。現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションは、長さ一般化や下流タスクにおける現在の手法と競合する。スティックブレーキングは長さの一般化でも良好に機能し、2^{11}$コンテキストウインドウで訓練されたモデルが2^{14}$でうまく機能し、パープレキシティが向上する。

関連論文リスト

Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [8.486942657544825]
初期トークンの注意の調整は、その後のトークンよりも注意分布を鋭くしたり、平らにすることを示す。我々は、この特別なトークンに頭部特異的な注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
論文参考訳（メタデータ） (2025-05-16T22:52:24Z)
Focus What Matters: Matchability-Based Reweighting for Local Feature Matching [6.361840891399624]
本稿では,学習可能なバイアス項をアテンションロジットに同時に組み込む新しいアテンション再重み付け機構を提案する。 3つのベンチマークデータセットを用いて実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-05-04T15:50:28Z)
Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文参考訳（メタデータ） (2025-04-18T15:36:28Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文参考訳（メタデータ） (2024-10-14T17:50:28Z)
SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models [4.497551890206997]
自己保持機構は、シーケンス長で2次スケールする。 LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。 SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
論文参考訳（メタデータ） (2024-06-09T07:23:34Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Landmark Attention: Random-Access Infinite Context Length for Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文参考訳（メタデータ） (2023-05-25T17:53:42Z)
Input-length-shortening and text generation via attention values [1.8222946691865871]
我々は,第1層の注意和が,与えられたシーケンス内のトークンをフィルタリングするのに有効であることを示す。また、元のシーケンスの約6%を保持するだけで86.5%の精度が得られることを示す。
論文参考訳（メタデータ） (2023-03-14T02:11:24Z)
Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文参考訳（メタデータ） (2022-05-25T09:53:47Z)
Coarse-to-fine Q-attention with Tree Expansion [95.00518278458908]
粗いQ-アテンションは、粗いQ-アテンションで翻訳空間を識別し、サンプル効率の良いロボット操作を可能にする。 Q-アテンションは「粗い曖昧さ」に悩まされる - ボキセル化が著しく粗い場合、より微細な解像度で最初に調べることなく類似した物体を区別することは不可能である。そこで本論文では,Q-アテンションを木として,各Q-アテンション深さにおけるトップkボクセルの値推定値の蓄積に利用することを提案する。
論文参考訳（メタデータ） (2022-04-26T17:41:28Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文参考訳（メタデータ） (2020-09-30T13:18:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。