論文の概要: Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers
- arxiv url: http://arxiv.org/abs/2605.24518v1
- Date: Sat, 23 May 2026 11:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.155392
- Title: Grammatically-Guided Sparse Attention for Efficient and Interpretable Transformers
- Title(参考訳): 効率よく解釈可能な変圧器のための文法ガイド付きスパースアテンション
- Authors: Spandan Pratyush,
- Abstract要約: 文法的にガイドされたスパース注意は、トークンの文法的役割に基づいた注意計算を制約する。
2つのマスキング戦略を提案し評価した。
予備実験の結果,ハードマスクは0.8200,ソフトマスクは0.8165であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of self-attention in Transformer models remains a significant bottleneck for processing long sequences and deploying large language models efficiently. For this approach, there has been significant research into Sparse Attention, and Deepseek Sparse Attention has combined various methods of creating segments of tokens to reduce the time complexity. This paper introduces a novel approach, Grammatically-Guided Sparse Attention, which constrains attention computations based on the grammatical roles of tokens. By leveraging Parts-of-Speech (POS) tags, attention masks are dynamically generated that enforce linguistically coherent connections between tokens, reducing the computational graph without sacrificing essential linguistic dependencies. Two masking strategies are proposed and evaluated: a hard mask that strictly allows only predefined grammatical interactions, and a soft mask that biases attention towards these interactions. The experiments, conducted on the SST-2 sentiment classification task using a DistilBERT-like architecture, demonstrate that Grammatically-Guided Sparse Attention maintains comparable accuracy to full attention while significantly reducing the theoretical computational overhead. Preliminary results show accuracy values of 0.8200 for hard masking and 0.8165 for soft masking, closely matching the 0.8200 of full attention, providing a path towards more efficient, interpretable, and linguistically-informed Transformer architectures.
- Abstract(参考訳): トランスフォーマーモデルにおける自己注意の二次的複雑さは、長いシーケンスを処理し、大きな言語モデルを効率的にデプロイする上で重要なボトルネックである。
このアプローチでは、スパース注意(Sparse Attention)に関する重要な研究が行われており、Deepseekスパース注意(Deepseek Sparse Attention)は、時間の複雑さを減らすためにトークンのセグメントを作成する様々な方法を組み合わせている。
本稿では,トークンの文法的役割に基づいた注意計算を制約する,文法的ガイド付きスパース注意法を提案する。
POS(Parts-of-Speech)タグを利用することで、トークン間の言語的コヒーレントな接続を強制するアテンションマスクを動的に生成し、重要な言語依存を犠牲にすることなく計算グラフを縮小する。
事前に定義された文法的相互作用のみを厳密に許すハードマスクと、これらの相互作用に注意を向けるソフトマスクの2つのマスキング戦略が提案され評価されている。
DistilBERTのようなアーキテクチャを用いてSST-2感情分類タスクで実施された実験は、文法的にガイドされたスパース注意が、理論計算のオーバーヘッドを大幅に低減しつつ、完全に注意するのと同等の精度を維持していることを示した。
予備的な結果は、ハードマスクの0.8200、ソフトマスクの0.8165の精度を示し、0.8200の完全な注意と密に一致し、より効率的、解釈可能、言語的にインフォームドされたトランスフォーマーアーキテクチャへの道筋を示している。
関連論文リスト
- SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers [9.24617274894642]
視覚変換器(ViT)内の冗長トークンを早期に検出するためのフレームワークとして,Token Relevance (SPOT) を用いた attentiOn dynamics を用いたSParsification を提案する。
SPOTはトークンスペーシフィケーションを通知し、そのようなトークンを除去し、性能を犠牲にすることなく計算効率を向上させる。
実験による評価では、通常のViTに比べて40%の効率向上が見られた。
論文 参考訳(メタデータ) (2025-11-13T16:56:24Z) - DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。
このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:24:36Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Token Masking Improves Transformer-Based Text Classification [0.40964539027092917]
本稿では,入力トークンを確率 p で特別な [MASK] トークンにランダムに置き換える,シンプルだが理論的に動機づけられたトークンマスキング正規化を提案する。
言語識別と感情分析の実験では、標準正規化技術よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-05-16T23:06:11Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - A text autoencoder from transformer for fast encoding language
representation [0.0]
本稿では,注目層におけるウィンドウマスキング機構を用いた双方向言語モデルを提案する。
この研究は、BERTのようにランダムマスキングなしで文脈言語表現を計算する。
提案手法は, O($n2$) の他の変圧器モデルと比較して O(n) の複雑性が低いことを示す。
論文 参考訳(メタデータ) (2021-11-04T13:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。