論文の概要: Asymptotics of SGD in Sequence-Single Index Models and Single-Layer Attention Networks
- arxiv url: http://arxiv.org/abs/2506.02651v1
- Date: Tue, 03 Jun 2025 09:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.504009
- Title: Asymptotics of SGD in Sequence-Single Index Models and Single-Layer Attention Networks
- Title(参考訳): 系列特異指数モデルと単層アテンションネットワークにおけるSGDの漸近
- Authors: Luca Arnaboldi, Bruno Loureiro, Ludovic Stephan, Florent Krzakala, Lenka Zdeborova,
- Abstract要約: 本研究では,SSI(Sequence Single-Index)モデルと呼ばれる一連のシーケンスモデルに対する勾配降下(SGD)のダイナミクスについて検討する。
この設定は古典的な単一インデックスモデルをシーケンシャル領域に一般化する。
- 参考スコア(独自算出の注目度): 24.882327415229295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the dynamics of stochastic gradient descent (SGD) for a class of sequence models termed Sequence Single-Index (SSI) models, where the target depends on a single direction in input space applied to a sequence of tokens. This setting generalizes classical single-index models to the sequential domain, encompassing simplified one-layer attention architectures. We derive a closed-form expression for the population loss in terms of a pair of sufficient statistics capturing semantic and positional alignment, and characterize the induced high-dimensional SGD dynamics for these coordinates. Our analysis reveals two distinct training phases: escape from uninformative initialization and alignment with the target subspace, and demonstrates how the sequence length and positional encoding influence convergence speed and learning trajectories. These results provide a rigorous and interpretable foundation for understanding how sequential structure in data can be beneficial for learning with attention-based models.
- Abstract(参考訳): 本研究では,SSI(Sequence Single-Index)モデルと呼ばれる一連のシーケンスモデルに対する確率勾配勾配(SGD)のダイナミクスについて検討する。
この設定は、古典的な単一インデックスモデルを、単純化された一層アテンションアーキテクチャを含むシーケンシャルドメインに一般化する。
そこで本研究では,これらの座標に対する高次元SGDダイナミックスを特徴付けるために,意味的および位置的アライメントを抽出する十分な統計値のペアを用いて,人口減少のためのクローズドフォーム式を導出する。
解析により,非形式的初期化から脱却し,対象部分空間とアライメントし,シーケンス長と位置エンコーディングが収束速度と学習軌道にどのように影響するかを示す。
これらの結果は、データ内のシーケンシャルな構造が、注意に基づくモデルによる学習にどのように役立つかを理解するための厳密で解釈可能な基盤を提供する。
関連論文リスト
- Learning Identifiable Structures Helps Avoid Bias in DNN-based Supervised Causal Learning [56.22841701016295]
Supervised Causal Learning (SCL)はこの分野で新興パラダイムである。
既存のディープニューラルネットワーク(DNN)ベースの手法では、"Node-Edgeアプローチ"が一般的である。
論文 参考訳(メタデータ) (2025-02-15T19:10:35Z) - Seq-HyGAN: Sequence Classification via Hypergraph Attention Network [0.0]
シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。
シーケンスデータに明示的な機能がないため、機械学習モデルでは難しい。
本稿では,新しいハイパーグラフ注意ネットワークモデル,Seq-HyGANを提案する。
論文 参考訳(メタデータ) (2023-03-04T11:53:33Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z) - A Short Note on Analyzing Sequence Complexity in Trajectory Prediction
Benchmarks [8.870188183999852]
データセット表現を識別可能なサブシーケンスの小さなセットの観点から決定する手法を提案する。
合成された実世界のデータセットに関する最初の概念実証は、このアプローチの生存可能性を示している。
論文 参考訳(メタデータ) (2020-03-27T11:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。