論文の概要: Understanding Self-attention Mechanism via Dynamical System Perspective
- arxiv url: http://arxiv.org/abs/2308.09939v1
- Date: Sat, 19 Aug 2023 08:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:59:32.430466
- Title: Understanding Self-attention Mechanism via Dynamical System Perspective
- Title(参考訳): 動的システムの視点からの自己認識機構の理解
- Authors: Zhongzhan Huang, Mingfu Liang, Jinghui Qin, Shanshan Zhong, Liang Lin
- Abstract要約: SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
- 参考スコア(独自算出の注目度): 58.024376086269015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention mechanism (SAM) is widely used in various fields of
artificial intelligence and has successfully boosted the performance of
different models. However, current explanations of this mechanism are mainly
based on intuitions and experiences, while there still lacks direct modeling
for how the SAM helps performance. To mitigate this issue, in this paper, based
on the dynamical system perspective of the residual neural network, we first
show that the intrinsic stiffness phenomenon (SP) in the high-precision
solution of ordinary differential equations (ODEs) also widely exists in
high-performance neural networks (NN). Thus the ability of NN to measure SP at
the feature level is necessary to obtain high performance and is an important
factor in the difficulty of training NN. Similar to the adaptive step-size
method which is effective in solving stiff ODEs, we show that the SAM is also a
stiffness-aware step size adaptor that can enhance the model's representational
ability to measure intrinsic SP by refining the estimation of stiffness
information and generating adaptive attention values, which provides a new
understanding about why and how the SAM can benefit the model performance. This
novel perspective can also explain the lottery ticket hypothesis in SAM, design
new quantitative metrics of representational ability, and inspire a new
theoretic-inspired approach, StepNet. Extensive experiments on several popular
benchmarks demonstrate that StepNet can extract fine-grained stiffness
information and measure SP accurately, leading to significant improvements in
various visual tasks.
- Abstract(参考訳): SAM(Self-attention mechanism)は人工知能の様々な分野で広く使われており、様々なモデルの性能向上に成功している。
しかし、このメカニズムの現在の説明は、主に直感と経験に基づいているが、SAMがパフォーマンスの助けとなる直接的なモデリングはいまだに存在しない。
本稿では,本論文において,ニューラルネットワークの力学系の観点から,通常微分方程式 (odes) の高精度解における本質的剛性現象 (sp) が高性能ニューラルネットワーク (nn) にも広く存在することを示す。
したがって, NNのSP測定能力は, 高い性能を得るために必要であり, NNの訓練の難しさに重要な要因である。
固いODEを解くのに有効な適応的なステップサイズ法と同様に、SAMは剛性を考慮したステップサイズ適応器であり、剛性情報の推定と適応的注意値の生成により、内在性SPを測定するモデルの表現能力を向上し、SAMがモデル性能にどのような恩恵をもたらすかについての新しい理解を提供する。
この新しい視点はSAMで宝くじの仮説を説明し、表現能力の新しい定量的指標を設計し、新しい理論にインスパイアされたアプローチであるStepNetをインスピレーションする。
いくつかの人気のあるベンチマークに関する大規模な実験では、StepNetがきめ細かい剛性情報を抽出し、SPを正確に測定できることが示され、様々な視覚的タスクが大幅に改善された。
関連論文リスト
- Modeling Spatio-temporal Dynamical Systems with Neural Discrete Learning
and Levels-of-Experts [33.335735613579914]
本稿では,ビデオフレームなどの観測結果に基づいて,時間・動的システムの状態変化をモデル化し,推定することの課題に対処する。
本稿では、一般的な物理プロセスの法則をデータ駆動方式で捉えるために、ユニバーサルエキスパートモジュール、すなわち光フロー推定コンポーネントを提案する。
我々は、既存のSOTAベースラインと比較して、提案フレームワークが大きなパフォーマンスマージンを達成することを示すため、広範囲な実験と改善を実施している。
論文 参考訳(メタデータ) (2024-02-06T06:27:07Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Manipulating Feature Visualizations with Gradient Slingshots [46.20447646518049]
モデルアーキテクチャを変更することなく特徴可視化を操作する新しい手法を提案する。
いくつかのニューラルネットワークモデルにおいて,本手法の有効性を評価し,特定のニューロンの機能を隠す能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred
from Vision [73.26414295633846]
最近提案されたモデルのクラスは、高次元観測から潜在力学を学習しようと試みている。
既存の手法は画像再構成の品質に依存しており、学習した潜在力学の質を常に反映しているわけではない。
我々は、基礎となるハミルトン力学が忠実に捕獲されたかどうかのバイナリ指標を含む、一連の新しい尺度を開発する。
論文 参考訳(メタデータ) (2021-11-10T23:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。