論文の概要: Crisp Attention: Regularizing Transformers via Structured Sparsity
- arxiv url: http://arxiv.org/abs/2508.06016v1
- Date: Fri, 08 Aug 2025 05:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.080234
- Title: Crisp Attention: Regularizing Transformers via Structured Sparsity
- Title(参考訳): Crisp Attention: 構造化スパリティによる変圧器の正規化
- Authors: Sagar Gandhi, Vishal Gandhi,
- Abstract要約: SST-2感情分析タスクの微調整中に、DistilBERTモデルの注意機構に構造的、保温後間隔を導入する。
80%の注意間隔を持つモデルでは,高密度ベースラインに対する0.97%の絶対改善である91.59%の検証精度が得られた。
- 参考スコア(独自算出の注目度): 0.29998889086656577
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The quadratic computational cost of the self-attention mechanism is a primary challenge in scaling Transformer models. While attention sparsity is widely studied as a technique to improve computational efficiency, it is almost universally assumed to come at the cost of model accuracy. In this paper, we report a surprising counter-example to this common wisdom. By introducing structured, post-hoc sparsity to the attention mechanism of a DistilBERT model during fine-tuning on the SST-2 sentiment analysis task, we find that model accuracy improves significantly. Our model with 80\% attention sparsity achieves a validation accuracy of 91.59\%, a 0.97\% absolute improvement over the dense baseline. We hypothesize that this phenomenon is due to sparsity acting as a powerful implicit regularizer, preventing the model from overfitting by forcing it to make predictions with a more constrained and robust set of features. Our work recasts attention sparsity not just as a tool for computational efficiency, but as a potential method for improving the generalization and performance of Transformer models.
- Abstract(参考訳): 自己アテンション機構の二次計算コストは、Transformerモデルのスケーリングにおける主要な課題である。
注意空間は計算効率を向上させる技術として広く研究されているが、ほぼ普遍的にモデル精度のコストがかかると仮定されている。
本稿では,この共通認識に対する驚くべき反例を報告する。
SST-2感情分析タスクの微調整中に、DistilBERTモデルの注意機構に構造的、保温後間隔を導入することにより、モデルの精度が大幅に向上することが判明した。
注意間隔80\%のモデルでは,高密度ベースラインに対する0.97\%の絶対改善である91.59\%の検証精度が得られた。
この現象は、空間が強力な暗黙の正則化器として機能し、より制約のある頑健な特徴セットで予測を強制することで、モデルが過度に適合しないようにするためである、という仮説を立てる。
本研究は,計算効率のツールとしてだけでなく,トランスフォーマーモデルの一般化と性能向上のための潜在的手法として,注目度を再考する。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding [1.6112718683989882]
我々は、注意要素を慎重に調整された閾値と比較することによって、重要でない注意要素を選択的に抽出するTop-theta Attention(Top-theta$)を導入する。
モデル精度を保ちながら自己注意行列乗算の効率を大幅に向上する。
トップkとは異なり、Top-$theta$は全ベクター依存を排除し、タイリングとスケールアウトに適し、コストのかかるトップk検索を避ける。
論文 参考訳(メタデータ) (2025-02-12T12:50:15Z) - Enhancing Transformer-based models for Long Sequence Time Series Forecasting via Structured Matrix [7.3758245014991255]
Transformerベースのモデルのコアコンポーネントとしての自己保持機構は、大きな可能性を秘めている。
本稿では,Surrogate Attention Blocks (SAB) とSurrogate Feed-Forward Neural Network Blocks (SFB) を統合してトランスフォーマーモデルを強化する新しいアーキテクチャフレームワークを提案する。
このフレームワークは、自己注意層とフィードフォワード層をSABとSFBで置き換えることで、時間と空間の複雑さを軽減します。
論文 参考訳(メタデータ) (2024-05-21T02:37:47Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。