論文の概要: On the Dynamics of Training Attention Models
- arxiv url: http://arxiv.org/abs/2011.10036v2
- Date: Fri, 19 Mar 2021 03:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:14:38.145618
- Title: On the Dynamics of Training Attention Models
- Title(参考訳): トレーニング注意モデルのダイナミクスについて
- Authors: Haoye Lu, Yongyi Mao, Amiya Nayak
- Abstract要約: 勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。
我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
- 参考スコア(独自算出の注目度): 30.85940880569692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The attention mechanism has been widely used in deep neural networks as a
model component. By now, it has become a critical building block in many
state-of-the-art natural language models. Despite its great success established
empirically, the working mechanism of attention has not been investigated at a
sufficient theoretical depth to date. In this paper, we set up a simple text
classification task and study the dynamics of training a simple attention-based
classification model using gradient descent. In this setting, we show that, for
the discriminative words that the model should attend to, a persisting identity
exists relating its embedding and the inner product of its key and the query.
This allows us to prove that training must converge to attending to the
discriminative words when the attention output is classified by a linear
classifier. Experiments are performed, which validate our theoretical analysis
and provide further insights.
- Abstract(参考訳): 注意機構は、モデルコンポーネントとしてディープニューラルネットワークで広く使用されている。
現在までに、多くの最先端の自然言語モデルにおいて重要なビルディングブロックとなっている。
実証的に成功しているにもかかわらず、これまで十分な理論的深さで注意の作業メカニズムは調査されていない。
本稿では,簡単なテキスト分類タスクを設定し,勾配降下を用いた単純な注意に基づく分類モデルの学習のダイナミクスについて検討する。
この設定では、モデルが従わなければならない判別的な単語に対して、その埋め込みとそのキーとクエリの内部積に関する永続的なアイデンティティが存在することを示す。
これにより、注意アウトプットが線形分類子によって分類された場合、トレーニングは識別語に収束しなければならないことを証明できる。
実験を行い、理論解析を検証し、さらなる洞察を提供する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Benign or Not-Benign Overfitting in Token Selection of Attention Mechanism [34.316270145027616]
注目アーキテクチャのトークン選択機構における良性過剰適合の解析を行う。
私たちの知る限りでは、注意機構に対する良心過剰適合を特徴づける最初の研究である。
論文 参考訳(メタデータ) (2024-09-26T08:20:05Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - TimeSHAP: Explaining Recurrent Models through Sequence Perturbations [3.1498833540989413]
リカレントニューラルネットワークは、多くの機械学習ドメインで標準的なビルディングブロックである。
これらのモデルにおける複雑な意思決定はブラックボックスと見なされ、正確性と解釈可能性の間の緊張を生み出す。
本研究では,モデルに依存しないリカレント説明器であるTimeSHAPを提示することにより,これらのギャップを埋めることに寄与する。
論文 参考訳(メタデータ) (2020-11-30T19:48:57Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。