Fugu-MT 論文翻訳(概要): Implicit Bias and Fast Convergence Rates for Self-attention

論文の概要: Implicit Bias and Fast Convergence Rates for Self-attention

arxiv url: http://arxiv.org/abs/2402.05738v2
Date: Mon, 31 Mar 2025 06:17:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.512817
Title: Implicit Bias and Fast Convergence Rates for Self-attention
Title（参考訳）: 自己注意のための暗黙のバイアスと高速収束率
Authors: Bhavya Vasudeva, Puneesh Deora, Christos Thrampoulidis,
Abstract要約: 本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
参考スコア（独自算出の注目度）: 26.766649949420746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the fundamental optimization principles of self-attention, the defining mechanism of transformers, by analyzing the implicit bias of gradient-based optimizers in training a self-attention layer with a linear decoder in binary classification. Building on prior studies in linear logistic regression, recent findings demonstrate that the key-query matrix $W_t$ from gradient-descent (GD) converges in direction towards $W_{mm}$, which maximizes the margin between optimal and non-optimal tokens across sequences. However, this convergence is local, dependent on initial conditions, only holds asymptotically as the number of iterations increases, and leaves questions about the potential benefits of adaptive step-size rules unaddressed. To bridge this gap, we first establish scenarios for which convergence is provably \emph{global}. We then analyze two adaptive step-size strategies: normalized GD and Polyak step-size, demonstrating \emph{finite-time} convergence rates for $W_t$ to $W_{mm}$, and quantifying the sparsification rate of the attention map. These findings not only show that these strategies can accelerate parameter convergence over standard GD in a non-convex setting but also deepen the understanding of the implicit bias in self-attention, linking it more closely to the phenomena observed in linear logistic regression despite its intricate non-convex nature.
Abstract（参考訳）: 線形復号器を二分分類した自己アテンション層の学習において、勾配に基づく最適化器の暗黙バイアスを解析することにより、自己アテンションの基本的最適化原理、変圧器の定義機構について検討する。線形ロジスティック回帰(英語版)の先行研究に基づいて、近年の研究では、勾配降下(GD)から得られるキー-クエリ行列 $W_t$ が$W_{mm}$ へと収束し、配列間の最適トークンと非最適トークンのマージンを最大化することを示した。しかし、この収束は局所的であり、初期条件に依存し、反復数が増加するにつれて漸近的にのみ成り立ち、適応的なステップサイズルールの潜在的な利点について疑問が残る。このギャップを埋めるために、まず収束が証明可能な 'emph{global} となるシナリオを確立する。次に、正規化されたGDとPolyakのステップサイズ、$W_t$から$W_{mm}$に対する 'emph{finite-time} 収束率、注目マップのスペーサー化率の定量化という2つの適応的なステップサイズ戦略を分析する。これらの結果は,非凸条件下での標準GDに対するパラメータ収束を促進できるだけでなく,非凸特性にもかかわらず,線形対数回帰で観測される現象とより密接に結び付けることによって,自己注意における暗黙のバイアスの理解を深めることができることを示している。

関連論文リスト

Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning [17.65459083031186]
線形回帰を訓練したソフトマックス自己アテンション層における勾配降下のダイナミクスを訓練する。簡単な一階勾配勾配勾配は、大域的に最適な自己注意パラメータに収束できることを示す。
論文参考訳（メタデータ） (2026-03-02T06:44:54Z)
Causal Direction from Convergence Time: Faster Training in the True Causal Direction [0.0]
最適化力学に基づく因果方向同定の原理である因果計算非対称性(Causal Computational Asymmetric, CCA)を紹介する。 CCAは最適化時空間で動作し、RESIT、IGCI、SkewScoreなどの手法と区別する。さらに、グラフ構造学習、因果情報圧縮、ポリシー最適化を統合したCausal Compression Learning(CCL)というフレームワークにCCAを組み込む。
論文参考訳（メタデータ） (2026-02-24T21:34:57Z)
Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Stochastic Variance-Reduced Iterative Hard Thresholding in Graph Sparsity Optimization [0.626226809683956]
グラデーションに基づくグラフ空間幅最適化法として,グラフRG-IHTとグラフSG-IHTの2つの手法を提案する。我々は,手法が勾配に基づく枠組みを楽しむことを示す理論解析の一般性を示す。
論文参考訳（メタデータ） (2024-07-24T03:26:26Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文参考訳（メタデータ） (2024-03-06T22:24:05Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates [17.777466668123886]
PROMISE ($textbfPr$econditioned $textbfO$ptimization $textbfM$ethods by $textbfI$ncorporating $textbfS$calable Curvature $textbfE$stimates)はスケッチベースの事前条件勾配アルゴリズムである。 PROMISEには、SVRG、SAGA、およびKatyushaのプレコンディション版が含まれている。
論文参考訳（メタデータ） (2023-09-05T07:49:10Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Implicit regularization in AI meets generalized hardness of approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。これを近似の一般化硬度における相転移現象と関連付ける。結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文参考訳（メタデータ） (2023-07-13T13:27:51Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
On the Explicit Role of Initialization on the Convergence and Implicit Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。正方形損失はその最適値に指数関数的に収束することを示す。我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文参考訳（メタデータ） (2021-05-13T15:13:51Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。