論文の概要: The Depth-to-Width Interplay in Self-Attention
- arxiv url: http://arxiv.org/abs/2006.12467v3
- Date: Sun, 17 Jan 2021 18:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:17:58.288363
- Title: The Depth-to-Width Interplay in Self-Attention
- Title(参考訳): 自己注意における奥行きインタラクション
- Authors: Yoav Levine, Noam Wies, Or Sharir, Hofit Bata and Amnon Shashua
- Abstract要約: 自己注意ネットワークは驚くほどの深さ非効率な行動を示す。
理論的には、自己注意における深さ効率と深さ効率との幅依存的な遷移を予測できる。
本ガイドラインは,GPT3までの大きさの自己保持ネットワークにおける奥行きトレードオフを解明するものである。
- 参考スコア(独自算出の注目度): 17.391855947989153
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Self-attention architectures, which are rapidly pushing the frontier in
natural language processing, demonstrate a surprising depth-inefficient
behavior: previous works indicate that increasing the internal representation
(network width) is just as useful as increasing the number of self-attention
layers (network depth). We theoretically predict a width-dependent transition
between depth-efficiency and depth-inefficiency in self-attention. We conduct
systematic empirical ablations on networks of depths 6 to 48 that clearly
reveal the theoretically predicted behaviors, and provide explicit quantitative
suggestions regarding the optimal depth-to-width allocation for a given
self-attention network size. The race towards beyond 1-Trillion parameter
language models renders informed guidelines for increasing self-attention depth
and width in tandem an essential ingredient. Our guidelines elucidate the
depth-to-width trade-off in self-attention networks of sizes up to the scale of
GPT3 (which we project to be too deep for its size), and beyond, marking an
unprecedented width of 30K as optimal for a 1-Trillion parameter network.
- Abstract(参考訳): 自然言語処理のフロンティアを急速に推し進めているセルフアテンションアーキテクチャは、驚くほどの深度非効率な振る舞いを示している。以前の研究は、内部表現(ネットワーク幅)の増加は、自己アテンション層の数(ネットワーク深度)の増加と同じくらい有用であることを示している。
理論的には、自己注意における深さ効率と深さ効率との幅依存的な遷移を予測する。
理論的に予測された行動を明確に示す深度6〜48のネットワーク上で、系統的な経験的改善を行い、与えられた自己注意ネットワークサイズに対する最適深度-幅割り当てに関する明確な定量的提案を行う。
1-Trillionパラメータ言語モデルを越えたレースでは、自己注意深さとタンデムの幅を増大させるためのインフォームドガイドラインが重要な要素である。
本ガイドラインは,gpt3のスケールまでの大きさの自己追跡ネットワークにおける深さから幅へのトレードオフを解明し,さらにその先例のない幅が1次元パラメータネットワークに最適であることを示すものである。
関連論文リスト
- (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Width and Depth Limits Commute in Residual Networks [26.97391529844503]
接続をスキップするディープニューラルネットワークにおいて、幅と深さを無限大にすると、その制限がどう取られるかに関わらず、同じ共分散構造が得られることを示す。
このことは、標準無限幅奥行きアプローチが、幅と同じ順序の深さのネットワークに対しても実用的な洞察を与える理由を説明する。
理論的な結果と良好な一致を示す広範囲なシミュレーションを行う。
論文 参考訳(メタデータ) (2023-02-01T13:57:32Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Width is Less Important than Depth in ReLU Neural Networks [40.83290846983707]
我々は,$mathbbRd$の入力を持つ任意のターゲットネットワークを,幅$O(d)$ネットワークで近似できることを示す。
結果は、有界重み付きネットワークの構築や、最大で$d+2$の幅を持つネットワークの構築に拡張される。
論文 参考訳(メタデータ) (2022-02-08T13:07:22Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Multi-stage Attention ResU-Net for Semantic Segmentation of
Fine-Resolution Remote Sensing Images [9.398340832493457]
この問題に対処するための線形注意機構(LAM)を提案する。
LAMは、計算効率の高いドット積アテンションとほぼ同値である。
微細なリモートセンシング画像からのセマンティックセグメンテーションのためのマルチステージアテンションResU-Netを設計する。
論文 参考訳(メタデータ) (2020-11-29T07:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。