Fugu-MT 論文翻訳(概要): Implicit Regularization of Gradient Flow on One-Layer Softmax Attention

論文の概要: Implicit Regularization of Gradient Flow on One-Layer Softmax Attention

arxiv url: http://arxiv.org/abs/2403.08699v1
Date: Wed, 13 Mar 2024 17:02:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 13:38:34.637786
Title: Implicit Regularization of Gradient Flow on One-Layer Softmax Attention
Title（参考訳）: 1層ソフトマックス注意における勾配流れの入射正則化
Authors: Heejune Sheen, Siyu Chen, Tianhao Wang, Harrison H. Zhou
Abstract要約: 一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
参考スコア（独自算出の注目度）: 10.060496091806694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study gradient flow on the exponential loss for a classification problem with a one-layer softmax attention model, where the key and query weight matrices are trained separately. Under a separability assumption on the data, we show that when gradient flow achieves the minimal loss value, it further implicitly minimizes the nuclear norm of the product of the key and query weight matrices. Such implicit regularization can be described by a Support Vector Machine (SVM) problem with respect to the attention weights. This finding contrasts with prior results showing that the gradient descent induces an implicit regularization on the Frobenius norm on the product weight matrix when the key and query matrices are combined into a single weight matrix for training. For diagonal key and query matrices, our analysis builds upon the reparameterization technique and exploits approximate KKT conditions of the SVM associated with the classification data. Moreover, the results are extended to general weights configurations given proper alignment of the weight matrices' singular spaces with the data features at initialization.
Abstract（参考訳）: 鍵および問合せ重量行列を個別に学習する一層ソフトマックスアテンションモデルを用いて,分類問題に対する指数損失の勾配流について検討した。データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。このような暗黙的な正規化は、注意重みに関してSVM(Support Vector Machine)問題によって説明できる。この発見は、勾配降下は、鍵行列とクエリ行列が訓練のために単一の重み行列に結合されたときに、積の重み行列上のフロベニウスノルムの暗黙の正則化を誘導することを示す以前の結果と対照的である。対角鍵および問合せ行列に対しては、再パラメータ化法に基づいて、分類データに関連するSVMの近似KKT条件を利用する。さらに、結果は初期化時のデータ特徴と重み行列の特異空間を適切にアライメントした一般重み構成に拡張される。

関連論文リスト

Cramer-Rao Bounds for Laplacian Matrix Estimation [56.1214184671173]
クラマー・ラオ境界(CRB)の閉形式行列式をラプラシア行列推定に特化して導出した。電力系統における(i)トポロジー同定,(ii)拡散モデルにおけるグラフフィルタ同定,(iii)ラプラシアン制約下でのガウスマルコフ確率場における精度行列推定の3つの代表的応用について示す。
論文参考訳（メタデータ） (2025-04-06T18:28:31Z)
Perturbation Analysis of Singular Values in Concatenated Matrices [0.0]
特異値スペクトルと特異摂動行列は個々の成分のスペクトルとどのように関係するのか? サブマトリクスにおける小さな摂動の下での値の安定性を定量化する解析的境界を設定する。結果、行列がノルムに近ければ、特異行列の支配的な特異値は安定であり、精度と圧縮のトレードオフを制御できることが証明された。
論文参考訳（メタデータ） (2025-03-11T09:28:57Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文参考訳（メタデータ） (2024-05-23T12:26:25Z)
Asymmetric matrix sensing by gradient descent with small random initialization [0.8611782340880084]
いくつかの線形測定値から低ランク行列を再構成する問題について検討する。私たちの重要な貢献は、$texted gradient flow$と呼ぶ連続的な勾配流方程式の導入です。
論文参考訳（メタデータ） (2023-09-04T20:23:35Z)
Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。 MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文参考訳（メタデータ） (2023-08-26T06:12:33Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
Sufficient dimension reduction for feature matrices [3.04585143845864]
そこで本研究では,主支持行列マシン (PSMM) を用いた行列次元削減手法を提案する。数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。
論文参考訳（メタデータ） (2023-03-07T23:16:46Z)
Graph Polynomial Convolution Models for Node Classification of Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文参考訳（メタデータ） (2022-09-12T04:46:55Z)
Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。 6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-21T01:47:17Z)
Learning a Compressive Sensing Matrix with Structural Constraints via Maximum Mean Discrepancy Optimization [17.104994036477308]
本稿では,圧縮センシング関連回復問題に対する測定行列を得るための学習に基づくアルゴリズムを提案する。ニューラルネットワーク関連のトピックにおけるこのようなメトリクスの最近の成功は、機械学習に基づく問題の解決策を動機付けている。
論文参考訳（メタデータ） (2021-10-14T08:35:54Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Efficient MCMC Sampling for Bayesian Matrix Factorization by Breaking Posterior Symmetries [1.3858051019755282]
本稿では、これらの対称性を確実に破り、精度を維持/改善する事前選択に対する簡単な修正を提案する。非ゼロ線形独立先行手段を用いることで,MCMC試料の自己相関が著しく低下し,再建誤差の低減につながる可能性が示唆された。
論文参考訳（メタデータ） (2020-06-08T00:25:48Z)
Accelerating Ill-Conditioned Low-Rank Matrix Estimation via Scaled Gradient Descent [34.0533596121548]
低ランク行列推定は凸問題を収束させ、信号処理、機械学習、画像科学に多くの応用を見出す。低ランク行列の個数の観点から,ScaledGDが最良となることを示す。我々の分析は、低ランク勾配降下に類似した一般損失にも適用できる。
論文参考訳（メタデータ） (2020-05-18T17:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。