Fugu-MT 論文翻訳(概要): Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning

論文の概要: Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning

arxiv url: http://arxiv.org/abs/2603.01514v1
Date: Mon, 02 Mar 2026 06:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.719484
Title: Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning
Title（参考訳）: ソフトマックス自己注意のトレーニングダイナミクス:プレコンディショニングによる高速大域収束
Authors: Gautam Goel, Mahdi Soltanolkotabi, Peter Bartlett,
Abstract要約: 線形回帰を訓練したソフトマックス自己アテンション層における勾配降下のダイナミクスを訓練する。簡単な一階勾配勾配勾配は、大域的に最適な自己注意パラメータに収束できることを示す。
参考スコア（独自算出の注目度）: 17.65459083031186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the training dynamics of gradient descent in a softmax self-attention layer trained to perform linear regression and show that a simple first-order optimization algorithm can converge to the globally optimal self-attention parameters at a geometric rate. Our analysis proceeds in two steps. First, we show that in the infinite-data limit the regression problem solved by the self-attention layer is equivalent to a nonconvex matrix factorization problem. Second, we exploit this connection to design a novel "structure-aware" variant of gradient descent which efficiently optimizes the original finite-data regression objective. Our optimization algorithm features several innovations over standard gradient descent, including a preconditioner and regularizer which help avoid spurious stationary points, and a data-dependent spectral initialization of parameters which lie near the manifold of global minima with high probability.
Abstract（参考訳）: 線形回帰を行うために訓練されたソフトマックス自己アテンション層における勾配降下のトレーニング力学について検討し、簡単な一階最適化アルゴリズムが幾何速度で大域的最適自己アテンションパラメータに収束可能であることを示す。私たちの分析は2つのステップで進みます。まず, 自己アテンション層が解いた回帰問題は, 非凸行列分解問題と等価であることを示す。第2に、この接続を利用して、元の有限データ回帰目標を効率的に最適化する、新しい勾配勾配勾配の「構造対応」変種を設計する。最適化アルゴリズムでは, プリコンディショナリと正則化器が, 急激な定常点の回避に役立つこと, および大域最小値の多様体近傍に高い確率で存在するパラメータのデータ依存スペクトル初期化など, 標準勾配降下に対するいくつかの革新を特徴としている。

関連論文リスト

Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文参考訳（メタデータ） (2025-11-18T17:51:17Z)
Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文参考訳（メタデータ） (2025-10-06T09:14:39Z)
Gradient-Normalized Smoothness for Optimization with Approximate Hessians [37.1630298053787]
本研究では, 近似2次情報と勾配正規化手法を組み合わせることで, 高速なグローバル収束率を実現するアルゴリズムを開発した。我々は,Hessianを用いたロジスティック回帰問題およびFisher and Gaussを用いた非連続ソフトコンバージェンス最適化における結果の直接的応用を示す。
論文参考訳（メタデータ） (2025-06-16T17:19:34Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [4.554284689395686]
暗黙的勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)アルゴリズムより優れている。 IGDは線形収束速度で大域的最適解に収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文参考訳（メタデータ） (2024-06-28T02:56:22Z)
Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文参考訳（メタデータ） (2024-02-08T15:15:09Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online Optimization [4.103281325880475]
本稿では、中央コーディネータを使わずに、局所的な計算と通信によって、オンライン最適化問題を分散的に解決することを目的とした、計算機エージェントのネットワークを扱う。本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。マルチエージェント学習によるこれらの数値実験では、GTAdamは最先端の分散最適化手法よりも優れている。
論文参考訳（メタデータ） (2020-09-03T15:20:21Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Optimizing generalization on the train set: a novel gradient-based framework to train parameters and hyperparameters simultaneously [0.0]
一般化は機械学習における中心的な問題である。本稿では,新たなリスク尺度に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-11T18:04:36Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。