論文の概要: Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals
- arxiv url: http://arxiv.org/abs/2503.06473v1
- Date: Sun, 09 Mar 2025 06:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:52.588385
- Title: Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals
- Title(参考訳): 冗長検索による層配置効率の向上
- Authors: Hanze Li, Xiande Huang,
- Abstract要約: 隣接層間のKL(Kulback-Leibler)のばらつきを利用して冗長性を定量化する手法を提案する。
また、冗長層を正確に識別し、スキップする拡張ベータ量子マッピング(EBQM)手法も導入する。
提案したELAアーキテクチャは,トレーニング効率と全体的なパフォーマンスを両立させ,トレーニング時間の30%削減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Growing evidence suggests that layer attention mechanisms, which enhance interaction among layers in deep neural networks, have significantly advanced network architectures. However, existing layer attention methods suffer from redundancy, as attention weights learned by adjacent layers often become highly similar. This redundancy causes multiple layers to extract nearly identical features, reducing the model's representational capacity and increasing training time. To address this issue, we propose a novel approach to quantify redundancy by leveraging the Kullback-Leibler (KL) divergence between adjacent layers. Additionally, we introduce an Enhanced Beta Quantile Mapping (EBQM) method that accurately identifies and skips redundant layers, thereby maintaining model stability. Our proposed Efficient Layer Attention (ELA) architecture, improves both training efficiency and overall performance, achieving a 30\% reduction in training time while enhancing performance in tasks such as image classification and object detection.
- Abstract(参考訳): ディープニューラルネットワークの層間相互作用を強化するレイヤアテンション機構は、ネットワークアーキテクチャが著しく進歩していることを示す証拠が増大している。
しかし, 既存のレイヤアテンション手法は冗長性に悩まされており, 隣接層で学習されるアテンション重みはよく似ている。
この冗長性により、複数のレイヤがほぼ同じ特徴を抽出し、モデルの表現能力が減少し、トレーニング時間が増加する。
そこで本稿では,Kulback-Leibler (KL) の隣接層間分散を利用した冗長性の定量化手法を提案する。
さらに、冗長なレイヤを正確に識別し、スキップし、モデル安定性を維持するEBQM(Enhanced Beta Quantile Mapping)手法を導入する。
提案するELAアーキテクチャは,画像分類やオブジェクト検出などのタスクの性能向上とともに,トレーニング効率と全体的なパフォーマンスの向上を実現し,トレーニング時間の30%削減を実現している。
関連論文リスト
- Strengthening Layer Interaction via Dynamic Layer Attention [12.341997220052486]
既存のレイヤーアテンション手法は固定された特徴写像上の層間相互作用を静的に達成する。
注意機構の動的コンテキスト表現能力を復元するために,動的レイヤアテンションアーキテクチャを提案する。
実験の結果,提案したDLAアーキテクチャの有効性が示され,画像認識や物体検出タスクにおける他の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-19T09:35:14Z) - Learning Sparse Neural Networks with Identity Layers [33.11654855515443]
本稿では,ネットワーク空間と層間特徴類似性の関係について検討する。
CKA-SRと呼ばれるスパースネットワークトレーニングのためのプラグアンドプレイCKAベースのスポーラリティ正規化を提案する。
CKA-SRは、複数のState-Of-The-Artスパース訓練法の性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-14T14:58:44Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Sharpness-Aware Minimization Leads to Low-Rank Features [49.64754316927016]
シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
論文 参考訳(メタデータ) (2023-05-25T17:46:53Z) - Dense Network Expansion for Class Incremental Learning [61.00081795200547]
最先端のアプローチでは、ネットワーク拡張(NE)に基づいた動的アーキテクチャを使用し、タスクごとにタスクエキスパートを追加する。
精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。
従来のSOTA法では、類似またはより小さなモデルスケールで、精度の点で4%のマージンで性能が向上した。
論文 参考訳(メタデータ) (2023-03-22T16:42:26Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Image Superresolution using Scale-Recurrent Dense Network [30.75380029218373]
畳み込みニューラルネットワーク(CNN)の設計の最近の進歩は、画像超解像(SR)の性能を大幅に向上させた。
残差ブロック内の一連の密接な接続を含む単位上に構築されたスケールリカレントSRアーキテクチャを提案する(Residual Dense Blocks (RDBs))。
我々のスケールリカレント設計は、現在の最先端のアプローチに比べてパラメトリックに効率的でありながら、より高いスケール要因の競合性能を提供する。
論文 参考訳(メタデータ) (2022-01-28T09:18:43Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。