論文の概要: ASR: Attention-alike Structural Re-parameterization
- arxiv url: http://arxiv.org/abs/2304.06345v2
- Date: Sun, 27 Aug 2023 02:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 00:04:27.072805
- Title: ASR: Attention-alike Structural Re-parameterization
- Title(参考訳): asr: 注意を喚起する構造的再パラメータ化
- Authors: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
- Abstract要約: 本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
- 参考スコア(独自算出の注目度): 56.88192537044364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The structural re-parameterization (SRP) technique is a novel deep learning
technique that achieves interconversion between different network architectures
through equivalent parameter transformations. This technique enables the
mitigation of the extra costs for performance improvement during training, such
as parameter size and inference time, through these transformations during
inference, and therefore SRP has great potential for industrial and practical
applications. The existing SRP methods have successfully considered many
commonly used architectures, such as normalizations, pooling methods, and
multi-branch convolution. However, the widely used attention modules which
drastically slow inference speed cannot be directly implemented by SRP due to
these modules usually act on the backbone network in a multiplicative manner
and the modules' output is input-dependent during inference, which limits the
application scenarios of SRP. In this paper, we conduct extensive experiments
from a statistical perspective and discover an interesting phenomenon Stripe
Observation, which reveals that channel attention values quickly approach some
constant vectors during training. This observation inspires us to propose a
simple-yet-effective attention-alike structural re-parameterization (ASR) that
allows us to achieve SRP for a given network while enjoying the effectiveness
of the attention mechanism. Extensive experiments conducted on several standard
benchmarks demonstrate the effectiveness of ASR in generally improving the
performance of existing backbone networks, attention modules, and SRP methods
without any elaborated model crafting. We also analyze the limitations and
provide experimental and theoretical evidence for the strong robustness of the
proposed ASR.
- Abstract(参考訳): 構造的再パラメータ化(SRP)技術は、等価パラメータ変換によって異なるネットワークアーキテクチャ間の相互変換を実現する新しいディープラーニング技術である。
この技術により、パラメータサイズや推論時間などのトレーニング中のパフォーマンス改善のための余分なコストを、推論中のこれらの変換を通じて軽減することができるため、SRPは工業的および実用的応用に大きな可能性を秘めている。
既存のsrp法は、正規化、プーリングメソッド、マルチブランチ畳み込みなど、多くの一般的なアーキテクチャをうまく考慮している。
しかしながら、これらのモジュールがバックボーンネットワーク上で乗算的に動作し、モジュールの出力は推論中に入力依存となるため、SRPのアプリケーションシナリオは制限される。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
この観察は,注意機構の有効性を享受しながら,所定のネットワークでsrpを実現するための,簡便かつ効果的な注意型構造再パラメータ化(asr)を提案する。
いくつかの標準ベンチマークで実施された広範囲な実験は、ASRが既存のバックボーンネットワーク、アテンションモジュール、SRPメソッドの性能を精巧なモデル作成なしに向上することを示す。
また,その限界を分析し,提案したASRの強靭性に関する実験的および理論的証拠を提供する。
関連論文リスト
- An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。