Fugu-MT 論文翻訳(概要): Convergent Stochastic Training of Attention and Understanding LoRA

論文の概要: Convergent Stochastic Training of Attention and Understanding LoRA

arxiv url: http://arxiv.org/abs/2605.07959v1
Date: Fri, 08 May 2026 16:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.197415
Title: Convergent Stochastic Training of Attention and Understanding LoRA
Title（参考訳）: LoRAの注意・理解の収束的確率的訓練
Authors: Zhengkai Sun, Dibyakanti Kumar, Alejandro F Frangi, Anirbit Mukherjee, Mingfei Sun,
Abstract要約: トランスフォーマーは機械学習に革命をもたらし、モデルに注目層を配置することは、無数のアプリケーションでますます標準になっている。大規模モデルではローランク適応(LoRA)を実装することが一般的であり、パラメータ化の因子化を訓練することで驚くほど精度の高いトレードオフを実現する。軽度正規化の場合、注目層上の経験的回帰損失と浅いニューラルネットワーク上のLoRAは、対応するギブズ測度に対するポアンカレの不等式を誘導する。
参考スコア（独自算出の注目度）: 40.81245220414135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have revolutionized machine learning and deploying attention layers in the model is increasingly standard across a myriad of applications. Further, for large models, it is common to implement Low Rank Adaptation (LoRA), whereby a factorized parameterization of them is trained, to achieve a surprisingly beneficial accuracy-size trade-off. In this work, via a unified framework we rigorously establish trainability of such models under stochastic methods. We prove that for any mild regularization, the empirical regression loss on a attention layer and LoRA on a shallow neural net, both induce Poincaré inequality for the corresponding Gibbs' measure. Then it follows via invoking recent results that a certain SDE, which mimics the SGD, minimizes the corresponding losses. In both the cases, our first-of-its-kind results of trainability on attention and nets, do not rely on any assumptions on the data or the size of the architecture.
Abstract（参考訳）: トランスフォーマーは機械学習に革命をもたらし、モデルに注目層を配置することは、無数のアプリケーションでますます標準になっている。さらに、大規模モデルでは、低ランク適応(LoRA)を実装することが一般的であり、そのパラメータ化の因子化を訓練することで、驚くほど有効な精度のトレードオフを実現することができる。この作業では、統一されたフレームワークを通じて、確率的手法でそのようなモデルのトレーニング可能性を明確に確立します。軽度正規化の場合、注目層上の経験的回帰損失と浅いニューラルネット上のLoRAはどちらも対応するギブズ測度に対するポアンカレの不等式を誘導する。次に、SGDを模倣する特定のSDEが対応する損失を最小限に抑えるという最近の結果を呼び起こす。どちらの場合も、注意とネットのトレーニング容易性の第一級の結果は、データやアーキテクチャのサイズに関する仮定に依存しません。

関連論文リスト

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文参考訳（メタデータ） (2023-10-16T02:02:56Z)
Escaping mediocrity: how two-layer networks learn hard generalized linear models with SGD [29.162265194920522]
本研究では,グラディエント・Descent (SGD) の下で一般化線形目標関数を学習するための2層ニューラルネットワークのサンプル複雑性について検討する。オーバーファクター化は、この問題クラス内の定数因子による収束を増大させることしかできないことを示す。しかし,このプロセスの決定論的近似は脱走時間を適切に表現し,SGDityの役割は最小限である可能性が示唆された。
論文参考訳（メタデータ） (2023-05-29T14:40:56Z)
Counterbalancing Teacher: Regularizing Batch Normalized Models for Robustness [15.395021925719817]
バッチ正規化(BN)は、より精度の高い収束を加速するディープニューラルネットワークのトレーニング技術である。 BNは、トレーニング(ドメイン内)データに非常に依存する低分散機能に依存してモデルにインセンティブを与えることを示す。本稿では,学生ネットワークの頑健な表現の学習を強制するために,反バランス教師(CT)を提案する。
論文参考訳（メタデータ） (2022-07-04T16:16:24Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Adversarial Robustness via Fisher-Rao Regularization [33.134075068748984]
適応的堅牢性は、機械学習への関心の高まりのトピックとなっている。火はカテゴリーのクロスエントロピー損失に対する新しいフィッシャー・ラオ正規化である。
論文参考訳（メタデータ） (2021-06-12T04:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。