論文の概要: Attention Condensation via Sparsity Induced Regularized Training
- arxiv url: http://arxiv.org/abs/2503.01564v2
- Date: Wed, 12 Mar 2025 18:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:04.375059
- Title: Attention Condensation via Sparsity Induced Regularized Training
- Title(参考訳): スパーシティーによる正規化訓練による注意凝縮
- Authors: Eli Sason, Darya Frolova, Boris Nazarov, Felix Goldberd,
- Abstract要約: 自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。
我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。
カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As the context window expands, self-attention increasingly dominates the transformer's inference time. Therefore, accelerating attention computation while minimizing performance degradation is essential for the efficient deployment of Large Language Models (LLMs). In this study we extend a theoretical framework of attention sparsity in LLMs. A customized loss function is designed to enforce the sparsity by restricting the number of top elements in the attention matrix. We perform an initial set of evaluations with GPT-2 to show the effectiveness of our sparsification approach. The attention matrices of the models trained with the proposed loss are both sparse and effective in capturing relevant input dependencies. We now continue working to demonstrate the value of our approach on larger models and different architectures.
- Abstract(参考訳): コンテキストウィンドウが拡大するにつれて、自己注意がトランスフォーマーの推論時間を支配している。
そのため、LLM(Large Language Models)の効率的な展開には、パフォーマンス劣化を最小限に抑えながら注意計算の高速化が不可欠である。
本研究では,LLMにおける注意分散の理論的枠組みを拡張した。
カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
GPT-2を用いて初期評価を行い,スパーシフィケーション手法の有効性を示す。
提案した損失でトレーニングされたモデルの注意行列はスパースであり、関連する入力依存を捉えるのに有効である。
私たちは、より大きなモデルと異なるアーキテクチャに対するアプローチの価値を実証し続けています。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - ALTBI: Constructing Improved Outlier Detection Models via Optimization of Inlier-Memorization Effect [2.3961612657966946]
外乱検出(英: Outlier detection, OD)とは、特定のデータや今後のデータから異常な観測(または外乱)を識別するタスクである。
Inlier-memorization (IM) 効果は、生成モデルが初期の学習段階において、アウトリーチよりも前のインリーチを記憶することを示唆している。
IM効果を最大限に活用し,UODタスクに対処する理論的原理的手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:40:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。