論文の概要: Untangling tradeoffs between recurrence and self-attention in neural
networks
- arxiv url: http://arxiv.org/abs/2006.09471v2
- Date: Thu, 10 Dec 2020 09:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:47:48.496999
- Title: Untangling tradeoffs between recurrence and self-attention in neural
networks
- Title(参考訳): ニューラルネットワークにおける再発と自己注意の無意味なトレードオフ
- Authors: Giancarlo Kerg, Bhargav Kanuparthi, Anirudh Goyal, Kyle Goyette,
Yoshua Bengio, Guillaume Lajoie
- Abstract要約: 本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
- 参考スコア(独自算出の注目度): 81.30894993852813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention and self-attention mechanisms, are now central to state-of-the-art
deep learning on sequential tasks. However, most recent progress hinges on
heuristic approaches with limited understanding of attention's role in model
optimization and computation, and rely on considerable memory and computational
resources that scale poorly. In this work, we present a formal analysis of how
self-attention affects gradient propagation in recurrent networks, and prove
that it mitigates the problem of vanishing gradients when trying to capture
long-term dependencies by establishing concrete bounds for gradient norms.
Building on these results, we propose a relevancy screening mechanism, inspired
by the cognitive process of memory consolidation, that allows for a scalable
use of sparse self-attention with recurrence. While providing guarantees to
avoid vanishing gradients, we use simple numerical experiments to demonstrate
the tradeoffs in performance and computational resources by efficiently
balancing attention and recurrence. Based on our results, we propose a concrete
direction of research to improve scalability of attentive networks.
- Abstract(参考訳): 注意とセルフアテンションのメカニズムは、シーケンシャルなタスクに関する最先端のディープラーニングの中心となっている。
しかし、最近の進歩は、モデル最適化と計算における注意の役割を限定的に理解したヒューリスティックなアプローチに基づき、低スケールのメモリと計算資源に依存している。
本研究では,再帰的ネットワークにおける勾配伝播に自己注意がどう影響するかを形式的に解析し,勾配ノルムの具体的境界を確立することにより,長期的依存性を捉えようとする場合の勾配の消失問題を軽減することを実証する。
これらの結果に基づいて,記憶統合の認知過程にインスパイアされた関連性スクリーニング機構を提案する。
勾配の消失を避けるための保証を提供する一方で,注意と再帰のバランスを効率的にとることで,性能と計算資源のトレードオフを単純な数値実験で実証する。
そこで本研究では,ネットワークのスケーラビリティ向上に向けた具体的な研究方向を提案する。
関連論文リスト
- On the Markov Property of Neural Algorithmic Reasoning: Analyses and
Methods [94.72563337153268]
ForgetNetは歴史的埋め込みを使わないので、タスクのマルコフの性質と一致している。
また、G-ForgetNetを導入し、G-ForgetNetは歴史的埋め込みの選択的統合を可能にするゲーティング機構を使用している。
我々の実験はCLRS-30アルゴリズム推論ベンチマークに基づいて、ForgetNetとG-ForgetNetの両方が既存の手法よりも優れた一般化を実現することを示した。
論文 参考訳(メタデータ) (2024-03-07T22:35:22Z) - Easy attention: A simple attention mechanism for temporal predictions with transformers [2.172584429650463]
キー,クエリ,ソフトマックスは,時間的シーケンスにおける長期依存を捉えるのに必要な注意点を得るのに必要ではないことを示す。
提案手法は,注意点を直接学習可能なパラメータとして扱う。
この手法はカオスシステムの時間的ダイナミクスの再構築と予測において優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-08-24T15:54:32Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Continual Attentive Fusion for Incremental Learning in Semantic
Segmentation [43.98082955427662]
勾配に基づくテクニックで訓練された深いアーキテクチャは、破滅的な忘れに苦しむ。
破滅的忘れを緩和するための新しい注意的特徴蒸留手法を導入する。
また, 蒸留損失の背景を考慮に入れた新たな手法を導入し, 偏りの予測を防止した。
論文 参考訳(メタデータ) (2022-02-01T14:38:53Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Schematic Memory Persistence and Transience for Efficient and Robust
Continual Learning [8.030924531643532]
継続学習は、次世代人工知能(AI)に向けた有望なステップであると考えられている
まだ非常に原始的であり、既存の作品は主に(破滅的な)忘れの回避に焦点が当てられている。
神経科学の最近の進歩を踏まえた,外部記憶を用いた連続学習のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-05T14:32:47Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。