論文の概要: Selective Attention: Enhancing Transformer through Principled Context Control
- arxiv url: http://arxiv.org/abs/2411.12892v1
- Date: Tue, 19 Nov 2024 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:15.329057
- Title: Selective Attention: Enhancing Transformer through Principled Context Control
- Title(参考訳): Selective Attention: 原則的コンテキスト制御によるトランスフォーマーの強化
- Authors: Xuechen Zhang, Xiangyu Chang, Mingchen Li, Amit Roy-Chowdhury, Jiasi Chen, Samet Oymak,
- Abstract要約: SSA(textitSelective Self-Attention$)層を導入し,ソフトマックスの非線形性を原理的温度スケーリング戦略で強化する。
これは注意の希釈を軽減し、最適化プロセスを支援し、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
- 参考スコア(独自算出の注目度): 33.874087621944945
- License:
- Abstract: The attention mechanism within the transformer architecture enables the model to weigh and combine tokens based on their relevance to the query. While self-attention has enjoyed major success, it notably treats all queries $q$ in the same way by applying the mapping $V^\top\text{softmax}(Kq)$, where $V,K$ are the value and key embeddings respectively. In this work, we argue that this uniform treatment hinders the ability to control contextual sparsity and relevance. As a solution, we introduce the $\textit{Selective Self-Attention}$ (SSA) layer that augments the softmax nonlinearity with a principled temperature scaling strategy. By controlling temperature, SSA adapts the contextual sparsity of the attention map to the query embedding and its position in the context window. Through theory and experiments, we demonstrate that this alleviates attention dilution, aids the optimization process, and enhances the model's ability to control softmax spikiness of individual queries. We also incorporate temperature scaling for value embeddings and show that it boosts the model's ability to suppress irrelevant/noisy tokens. Notably, SSA is a lightweight method which introduces less than 0.5% new parameters through a weight-sharing strategy and can be fine-tuned on existing LLMs. Extensive empirical evaluations demonstrate that SSA-equipped models achieve a noticeable and consistent accuracy improvement on language modeling benchmarks.
- Abstract(参考訳): トランスフォーマーアーキテクチャ内のアテンションメカニズムにより、クエリとの関連性に基づいてトークンを重み付け、組み合わせることができる。
自己注意は大きな成功をおさめたが、特に$V^\top\text{softmax}(Kq)$というマッピングを適用することで、同じ方法で全てのクエリを$q$で扱う。
本研究では, この一様処理が, 文脈の空間性と関連性を制御する能力を妨げていると論じる。
解法として、原理的な温度スケーリング戦略でソフトマックス非線形性を増強する$\textit{Selective Self-Attention}$ (SSA) 層を導入する。
温度を制御することにより、SSAは、アテンションマップのコンテキスト間隔を、クエリの埋め込みとその位置をコンテキストウィンドウに適応させる。
理論と実験により、これは注意の希釈を軽減し、最適化プロセスを助け、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
また、値埋め込みに温度スケーリングを導入し、無関係/ノイズトークンを抑えるモデルの能力を高めることを示す。
特に、SSAはウェイトシェアリング戦略を通じて0.5%未満の新しいパラメータを導入し、既存のLCMを微調整できる軽量な手法である。
大規模な経験的評価は、言語モデリングベンチマークにおいて、SSA搭載モデルが顕著で一貫した精度の向上を達成していることを示している。
関連論文リスト
- $\boldsymbolμ\mathbf{P^2}$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling [49.25546155981064]
シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。
この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。
対照的に、階層的にスケールする摂動を伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
論文 参考訳(メタデータ) (2024-10-31T16:32:04Z) - Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions [26.025283259518936]
RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。
Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。
実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
論文 参考訳(メタデータ) (2024-10-09T06:22:36Z) - LLaCA: Multimodal Large Language Continual Assistant [59.585544987096974]
MCIT(Multimodal Continual Instruction Tuning)は、MLLMにシーケンシャルデータセットにおける人間の意図に従うよう継続的に指示するために用いられる。
既存の勾配更新は、以前のデータセットのチューニング性能を著しく損なうことになる。
本稿では,この課題に対処するため,LLaCA (Multimodal Large Language Continual Assistant) という手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - ScalableViT: Rethinking the Context-oriented Generalization of Vision
Transformer [26.546827590370054]
自己認識のメカニズムは本質的には、事前に定義された、あるいはよりステッドファストな計算次元に依存している。
本稿では,2つのスケーリング要素を利用してクエリ,キー,値行列の次元を解放し,それらを入力とアンバインドする,スケーラブルなセルフアテンション機構を提案する。
このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。
論文 参考訳(メタデータ) (2022-03-21T08:08:15Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。