Fugu-MT 論文翻訳(概要): Selective Attention: Enhancing Transformer through Principled Context Control

論文の概要: Selective Attention: Enhancing Transformer through Principled Context Control

arxiv url: http://arxiv.org/abs/2411.12892v1
Date: Tue, 19 Nov 2024 22:17:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.296165
Title: Selective Attention: Enhancing Transformer through Principled Context Control
Title（参考訳）: Selective Attention: 原則的コンテキスト制御によるトランスフォーマーの強化
Authors: Xuechen Zhang, Xiangyu Chang, Mingchen Li, Amit Roy-Chowdhury, Jiasi Chen, Samet Oymak,
Abstract要約: SSA(textitSelective Self-Attention$)層を導入し,ソフトマックスの非線形性を原理的温度スケーリング戦略で強化する。これは注意の希釈を軽減し、最適化プロセスを支援し、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
参考スコア（独自算出の注目度）: 33.874087621944945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The attention mechanism within the transformer architecture enables the model to weigh and combine tokens based on their relevance to the query. While self-attention has enjoyed major success, it notably treats all queries $q$ in the same way by applying the mapping $V^\top\text{softmax}(Kq)$, where $V,K$ are the value and key embeddings respectively. In this work, we argue that this uniform treatment hinders the ability to control contextual sparsity and relevance. As a solution, we introduce the $\textit{Selective Self-Attention}$ (SSA) layer that augments the softmax nonlinearity with a principled temperature scaling strategy. By controlling temperature, SSA adapts the contextual sparsity of the attention map to the query embedding and its position in the context window. Through theory and experiments, we demonstrate that this alleviates attention dilution, aids the optimization process, and enhances the model's ability to control softmax spikiness of individual queries. We also incorporate temperature scaling for value embeddings and show that it boosts the model's ability to suppress irrelevant/noisy tokens. Notably, SSA is a lightweight method which introduces less than 0.5% new parameters through a weight-sharing strategy and can be fine-tuned on existing LLMs. Extensive empirical evaluations demonstrate that SSA-equipped models achieve a noticeable and consistent accuracy improvement on language modeling benchmarks.
Abstract（参考訳）: トランスフォーマーアーキテクチャ内のアテンションメカニズムにより、クエリとの関連性に基づいてトークンを重み付け、組み合わせることができる。自己注意は大きな成功をおさめたが、特に$V^\top\text{softmax}(Kq)$というマッピングを適用することで、同じ方法で全てのクエリを$q$で扱う。本研究では, この一様処理が, 文脈の空間性と関連性を制御する能力を妨げていると論じる。解法として、原理的な温度スケーリング戦略でソフトマックス非線形性を増強する$\textit{Selective Self-Attention}$ (SSA) 層を導入する。温度を制御することにより、SSAは、アテンションマップのコンテキスト間隔を、クエリの埋め込みとその位置をコンテキストウィンドウに適応させる。理論と実験により、これは注意の希釈を軽減し、最適化プロセスを助け、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。また、値埋め込みに温度スケーリングを導入し、無関係/ノイズトークンを抑えるモデルの能力を高めることを示す。特に、SSAはウェイトシェアリング戦略を通じて0.5%未満の新しいパラメータを導入し、既存のLCMを微調整できる軽量な手法である。大規模な経験的評価は、言語モデリングベンチマークにおいて、SSA搭載モデルが顕著で一貫した精度の向上を達成していることを示している。

関連論文リスト

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP) 軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文参考訳（メタデータ） (2025-04-06T15:15:07Z)
SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
Dynamic Adaptation of LoRA Fine-Tuning for Efficient and Task-Specific Optimization of Large Language Models [0.7421845364041001]
本稿では,大規模言語モデル-動的LoRAのためのファインチューニング手法を提案する。効率と性能を改善するために動的適応機構を追加します。動的LoRAの効率は、ベンチマークデータセットの実験で検証された。
論文参考訳（メタデータ） (2025-01-24T18:54:14Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Federated LLMs Fine-tuned with Adaptive Importance-Aware LoRA [24.871424801066006]
LLM(Large Language Models)のフェデレートされた微調整は、データプライバシを保持しながら、さまざまなデータセットにまたがるタスク固有の適応を可能にする。ヘテロジニアス適応型低ランク適応(LoRA)ファインチューニングLDMフレームワーク(HAFL)を提案する。提案手法は,低通信サイズで迅速に収束し,クライアントへのモデル配信時の性能劣化を回避する。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
$\boldsymbolμ\mathbf{P^2}$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling [49.25546155981064]
シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。対照的に、階層的にスケールする摂動を伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
論文参考訳（メタデータ） (2024-10-31T16:32:04Z)
Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions [26.025283259518936]
RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。 Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
論文参考訳（メタデータ） (2024-10-09T06:22:36Z)
LLaCA: Multimodal Large Language Continual Assistant [59.585544987096974]
MCIT(Multimodal Continual Instruction Tuning)は、MLLMにシーケンシャルデータセットにおける人間の意図に従うよう継続的に指示するために用いられる。既存の勾配更新は、以前のデータセットのチューニング性能を著しく損なうことになる。本稿では,この課題に対処するため,LLaCA (Multimodal Large Language Continual Assistant) という手法を提案する。
論文参考訳（メタデータ） (2024-10-08T11:24:59Z)
Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文参考訳（メタデータ） (2024-09-02T19:28:35Z)
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。 ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-06-24T13:41:08Z)
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer [26.546827590370054]
自己認識のメカニズムは本質的には、事前に定義された、あるいはよりステッドファストな計算次元に依存している。本稿では,2つのスケーリング要素を利用してクエリ,キー,値行列の次元を解放し,それらを入力とアンバインドする,スケーラブルなセルフアテンション機構を提案する。このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。
論文参考訳（メタデータ） (2022-03-21T08:08:15Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。