論文の概要: Understanding Self-attention Mechanism via Dynamical System Perspective
- arxiv url: http://arxiv.org/abs/2308.09939v1
- Date: Sat, 19 Aug 2023 08:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:59:32.430466
- Title: Understanding Self-attention Mechanism via Dynamical System Perspective
- Title(参考訳): 動的システムの視点からの自己認識機構の理解
- Authors: Zhongzhan Huang, Mingfu Liang, Jinghui Qin, Shanshan Zhong, Liang Lin
- Abstract要約: SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
- 参考スコア(独自算出の注目度): 58.024376086269015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention mechanism (SAM) is widely used in various fields of
artificial intelligence and has successfully boosted the performance of
different models. However, current explanations of this mechanism are mainly
based on intuitions and experiences, while there still lacks direct modeling
for how the SAM helps performance. To mitigate this issue, in this paper, based
on the dynamical system perspective of the residual neural network, we first
show that the intrinsic stiffness phenomenon (SP) in the high-precision
solution of ordinary differential equations (ODEs) also widely exists in
high-performance neural networks (NN). Thus the ability of NN to measure SP at
the feature level is necessary to obtain high performance and is an important
factor in the difficulty of training NN. Similar to the adaptive step-size
method which is effective in solving stiff ODEs, we show that the SAM is also a
stiffness-aware step size adaptor that can enhance the model's representational
ability to measure intrinsic SP by refining the estimation of stiffness
information and generating adaptive attention values, which provides a new
understanding about why and how the SAM can benefit the model performance. This
novel perspective can also explain the lottery ticket hypothesis in SAM, design
new quantitative metrics of representational ability, and inspire a new
theoretic-inspired approach, StepNet. Extensive experiments on several popular
benchmarks demonstrate that StepNet can extract fine-grained stiffness
information and measure SP accurately, leading to significant improvements in
various visual tasks.
- Abstract(参考訳): SAM(Self-attention mechanism)は人工知能の様々な分野で広く使われており、様々なモデルの性能向上に成功している。
しかし、このメカニズムの現在の説明は、主に直感と経験に基づいているが、SAMがパフォーマンスの助けとなる直接的なモデリングはいまだに存在しない。
本稿では,本論文において,ニューラルネットワークの力学系の観点から,通常微分方程式 (odes) の高精度解における本質的剛性現象 (sp) が高性能ニューラルネットワーク (nn) にも広く存在することを示す。
したがって, NNのSP測定能力は, 高い性能を得るために必要であり, NNの訓練の難しさに重要な要因である。
固いODEを解くのに有効な適応的なステップサイズ法と同様に、SAMは剛性を考慮したステップサイズ適応器であり、剛性情報の推定と適応的注意値の生成により、内在性SPを測定するモデルの表現能力を向上し、SAMがモデル性能にどのような恩恵をもたらすかについての新しい理解を提供する。
この新しい視点はSAMで宝くじの仮説を説明し、表現能力の新しい定量的指標を設計し、新しい理論にインスパイアされたアプローチであるStepNetをインスピレーションする。
いくつかの人気のあるベンチマークに関する大規模な実験では、StepNetがきめ細かい剛性情報を抽出し、SPを正確に測定できることが示され、様々な視覚的タスクが大幅に改善された。
関連論文リスト
- Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。
我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。
刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文 参考訳(メタデータ) (2024-09-27T17:59:50Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Understanding the Functional Roles of Modelling Components in Spiking Neural Networks [9.448298335007465]
スパイキングニューラルネットワーク(SNN)は、生物学的忠実さで高い計算効率を達成することを約束している。
LIFに基づくSNNにおけるキーモデリングコンポーネント,リーク,リセット,再起動の機能的役割について検討する。
具体的には、メモリ保持とロバスト性のバランスにおいてリークが重要な役割を担い、リセット機構は未中断の時間的処理と計算効率に不可欠であり、リセットは、ロバストネス劣化を犠牲にして複雑なダイナミクスをモデル化する能力を強化する。
論文 参考訳(メタデータ) (2024-03-25T12:13:20Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。