論文の概要: Implicit Regularization of Gradient Flow on One-Layer Softmax Attention
- arxiv url: http://arxiv.org/abs/2403.08699v1
- Date: Wed, 13 Mar 2024 17:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:34.637786
- Title: Implicit Regularization of Gradient Flow on One-Layer Softmax Attention
- Title(参考訳): 1層ソフトマックス注意における勾配流れの入射正則化
- Authors: Heejune Sheen, Siyu Chen, Tianhao Wang, Harrison H. Zhou
- Abstract要約: 一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
- 参考スコア(独自算出の注目度): 10.060496091806694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study gradient flow on the exponential loss for a classification problem
with a one-layer softmax attention model, where the key and query weight
matrices are trained separately. Under a separability assumption on the data,
we show that when gradient flow achieves the minimal loss value, it further
implicitly minimizes the nuclear norm of the product of the key and query
weight matrices. Such implicit regularization can be described by a Support
Vector Machine (SVM) problem with respect to the attention weights. This
finding contrasts with prior results showing that the gradient descent induces
an implicit regularization on the Frobenius norm on the product weight matrix
when the key and query matrices are combined into a single weight matrix for
training. For diagonal key and query matrices, our analysis builds upon the
reparameterization technique and exploits approximate KKT conditions of the SVM
associated with the classification data. Moreover, the results are extended to
general weights configurations given proper alignment of the weight matrices'
singular spaces with the data features at initialization.
- Abstract(参考訳): 鍵および問合せ重量行列を個別に学習する一層ソフトマックスアテンションモデルを用いて,分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
このような暗黙的な正規化は、注意重みに関してSVM(Support Vector Machine)問題によって説明できる。
この発見は、勾配降下は、鍵行列とクエリ行列が訓練のために単一の重み行列に結合されたときに、積の重み行列上のフロベニウスノルムの暗黙の正則化を誘導することを示す以前の結果と対照的である。
対角鍵および問合せ行列に対しては、再パラメータ化法に基づいて、分類データに関連するSVMの近似KKT条件を利用する。
さらに、結果は初期化時のデータ特徴と重み行列の特異空間を適切にアライメントした一般重み構成に拡張される。
関連論文リスト
- Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Asymmetric matrix sensing by gradient descent with small random
initialization [0.8611782340880084]
いくつかの線形測定値から低ランク行列を再構成する問題について検討する。
私たちの重要な貢献は、$texted gradient flow$と呼ぶ連続的な勾配流方程式の導入です。
論文 参考訳(メタデータ) (2023-09-04T20:23:35Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Sufficient dimension reduction for feature matrices [3.04585143845864]
そこで本研究では,主支持行列マシン (PSMM) を用いた行列次元削減手法を提案する。
数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-03-07T23:16:46Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。
6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-21T01:47:17Z) - Learning a Compressive Sensing Matrix with Structural Constraints via
Maximum Mean Discrepancy Optimization [17.104994036477308]
本稿では,圧縮センシング関連回復問題に対する測定行列を得るための学習に基づくアルゴリズムを提案する。
ニューラルネットワーク関連のトピックにおけるこのようなメトリクスの最近の成功は、機械学習に基づく問題の解決策を動機付けている。
論文 参考訳(メタデータ) (2021-10-14T08:35:54Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Efficient MCMC Sampling for Bayesian Matrix Factorization by Breaking
Posterior Symmetries [1.3858051019755282]
本稿では、これらの対称性を確実に破り、精度を維持/改善する事前選択に対する簡単な修正を提案する。
非ゼロ線形独立先行手段を用いることで,MCMC試料の自己相関が著しく低下し,再建誤差の低減につながる可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-08T00:25:48Z) - Accelerating Ill-Conditioned Low-Rank Matrix Estimation via Scaled
Gradient Descent [34.0533596121548]
低ランク行列推定は凸問題を収束させ、信号処理、機械学習、画像科学に多くの応用を見出す。
低ランク行列の個数の観点から,ScaledGDが最良となることを示す。
我々の分析は、低ランク勾配降下に類似した一般損失にも適用できる。
論文 参考訳(メタデータ) (2020-05-18T17:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。