論文の概要: Fundamental limits of learning in sequence multi-index models and deep attention networks: High-dimensional asymptotics and sharp thresholds
- arxiv url: http://arxiv.org/abs/2502.00901v1
- Date: Sun, 02 Feb 2025 20:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:37.877161
- Title: Fundamental limits of learning in sequence multi-index models and deep attention networks: High-dimensional asymptotics and sharp thresholds
- Title(参考訳): シーケンス多重インデックスモデルとディープアテンションネットワークにおける学習の基本的限界--高次元漸近とシャープしきい値
- Authors: Emanuele Troiani, Hugo Cui, Yatin Dandi, Florent Krzakala, Lenka Zdeborová,
- Abstract要約: 重み付きおよび低ランクの重み付き多層自己注意層の構成として定義されるディープアテンションニューラルネットワークの学習について検討する。
私たちの分析では、特に異なるレイヤが逐次的に学習される方法が明らかになりました。
- 参考スコア(独自算出の注目度): 27.57989152496108
- License:
- Abstract: In this manuscript, we study the learning of deep attention neural networks, defined as the composition of multiple self-attention layers, with tied and low-rank weights. We first establish a mapping of such models to sequence multi-index models, a generalization of the widely studied multi-index model to sequential covariates, for which we establish a number of general results. In the context of Bayesian-optimal learning, in the limit of large dimension $D$ and commensurably large number of samples $N$, we derive a sharp asymptotic characterization of the optimal performance as well as the performance of the best-known polynomial-time algorithm for this setting --namely approximate message-passing--, and characterize sharp thresholds on the minimal sample complexity required for better-than-random prediction performance. Our analysis uncovers, in particular, how the different layers are learned sequentially. Finally, we discuss how this sequential learning can also be observed in a realistic setup.
- Abstract(参考訳): 本稿では,重み付きおよび低ランクの重み付き多層自己注意層の構成として定義されるディープアテンションニューラルネットワークの学習について検討する。
まず、このようなモデルをシーケンシャルなマルチインデックスモデルにマッピングし、そのモデルをシーケンシャルな共変量に一般化し、多くの一般的な結果を確立する。
ベイジアン・最適学習の文脈では、大次元$D$の限界と、膨大なサンプル数$N$の限界において、最適性能の鋭い漸近的特徴と、この設定に最もよく知られた多項式時間アルゴリズムの性能を導出する。
私たちの分析では、特に異なるレイヤが逐次的に学習される方法が明らかになりました。
最後に、この逐次学習が現実的な設定でどのように観測できるかについて議論する。
関連論文リスト
- Optimal Spectral Transitions in High-Dimensional Multi-Index Models [21.56591917674864]
本稿では,この問題に適したメッセージパッシング方式の線形化に基づくスペクトルアルゴリズムを提案する。
本研究では,提案手法が最適復元しきい値を達成することを示す。
数値実験と厳密な理論的枠組みによって支援され、我々はマルチインデックスモデルにおける弱い学習可能性の計算限界における臨界ギャップを橋渡しする。
論文 参考訳(メタデータ) (2025-02-04T18:15:51Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Informed deep hierarchical classification: a non-standard analysis inspired approach [0.0]
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
このようなアーキテクチャの設計は、LH-DNN(Lexicographic Hybrid Deep Neural Network)と呼ばれ、異なる研究分野と非常に離れた研究分野のツールを組み合わせることで実現されている。
アプローチの有効性を評価するために、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNNと比較する。
論文 参考訳(メタデータ) (2024-09-25T14:12:50Z) - Finding the DeepDream for Time Series: Activation Maximization for Univariate Time Series [10.388704631887496]
逐次情報解析に最大活性化を適用する手法であるSequence Dreamingを紹介する。
モデル決定プロセスに最も影響を及ぼす時間的ダイナミクスとパターンを可視化する。
論文 参考訳(メタデータ) (2024-08-20T08:09:44Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Learning Single-Index Models with Shallow Neural Networks [43.6480804626033]
我々は、浅層ニューラルネットワークの自然なクラスを導入し、勾配流を通して単一インデックスモデルを学習する能力について研究する。
対応する最適化ランドスケープが良性であることを示し、それによって専用半パラメトリック手法の準最適サンプル複雑性に一致するような一般化保証が得られることを示す。
論文 参考訳(メタデータ) (2022-10-27T17:52:58Z) - Layer Ensembles [95.42181254494287]
本稿では,ネットワークの各層に対する独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。
その結果,メモリと実行時間が少なくなるモデルが得られた。
論文 参考訳(メタデータ) (2022-10-10T17:52:47Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。