論文の概要: Towards Learning High-Precision Least Squares Algorithms with Sequence Models
- arxiv url: http://arxiv.org/abs/2503.12295v1
- Date: Sat, 15 Mar 2025 23:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:31.914845
- Title: Towards Learning High-Precision Least Squares Algorithms with Sequence Models
- Title(参考訳): 列モデルを用いた高精度最小二乗アルゴリズムの学習に向けて
- Authors: Jerry Liu, Jessica Grogan, Owen Dugan, Ashish Rao, Simran Arora, Atri Rudra, Christopher Ré,
- Abstract要約: ソフトマックス変換器は高い精度の乗算を行うのに苦労していることを示す。
既存のアーキテクチャやトレーニング手順に存在する制限を特定します。
われわれは初めて、機械の精度に近い訓練を行う能力を実証した。
- 参考スコア(独自算出の注目度): 42.217390215093516
- License:
- Abstract: This paper investigates whether sequence models can learn to perform numerical algorithms, e.g. gradient descent, on the fundamental problem of least squares. Our goal is to inherit two properties of standard algorithms from numerical analysis: (1) machine precision, i.e. we want to obtain solutions that are accurate to near floating point error, and (2) numerical generality, i.e. we want them to apply broadly across problem instances. We find that prior approaches using Transformers fail to meet these criteria, and identify limitations present in existing architectures and training procedures. First, we show that softmax Transformers struggle to perform high-precision multiplications, which prevents them from precisely learning numerical algorithms. Second, we identify an alternate class of architectures, comprised entirely of polynomials, that can efficiently represent high-precision gradient descent iterates. Finally, we investigate precision bottlenecks during training and address them via a high-precision training recipe that reduces stochastic gradient noise. Our recipe enables us to train two polynomial architectures, gated convolutions and linear attention, to perform gradient descent iterates on least squares problems. For the first time, we demonstrate the ability to train to near machine precision. Applied iteratively, our models obtain 100,000x lower MSE than standard Transformers trained end-to-end and they incur a 10,000x smaller generalization gap on out-of-distribution problems. We make progress towards end-to-end learning of numerical algorithms for least squares.
- Abstract(参考訳): 本稿では,最小二乗法の基本問題に基づいて,数列モデルが数値アルゴリズム,例えば勾配降下を学習できるかどうかを考察する。
我々のゴールは、(1)機械精度、すなわち、浮動小数点誤差に近い解を得たいこと、(2)数値一般性、すなわち問題インスタンスにまたがって広く適用したいこと、の2つの特性を数値解析から継承することである。
トランスフォーマーを用いた事前アプローチでは,これらの基準を満たすことができず,既存のアーキテクチャやトレーニング手順に存在する制約を特定することができる。
まず,ソフトマックス変換器は精度の高い乗算を行うのに苦労しており,数値アルゴリズムを正確に学習することができないことを示す。
第二に、高精度勾配降下イテレートを効率的に表現できる多項式からなる別のアーキテクチャのクラスを同定する。
最後に、トレーニング中の精度ボトルネックを調査し、確率勾配雑音を低減する高精度なトレーニングレシピを用いて対処する。
提案手法により,2つの多項式アーキテクチャ,ゲート畳み込みと線形アテンションを学習し,最小二乗問題に対して勾配降下を繰り返すことができる。
われわれは初めて、機械の精度に近い訓練を行う能力を実証した。
繰り返し適用すると,本モデルは標準トランスフォーマーがエンドツーエンドで訓練したよりも10,000倍低いMSEを得ることができ,分布外問題に対して1,000倍小さい一般化ギャップを生じる。
我々は、最小二乗の数値アルゴリズムのエンドツーエンド学習に向けて前進する。
関連論文リスト
- Learning Algorithm Hyperparameters for Fast Parametric Convex Optimization [2.0403774954994858]
本稿では,一階法のハイパーパラメータ列を学習するための機械学習フレームワークを提案する。
いくつかのアルゴリズムのハイパーパラメータの学習方法を示す。
本稿では,制御,信号処理,機械学習など,多くの例を用いて本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-11-24T04:58:36Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Fast Projected Newton-like Method for Precision Matrix Estimation under
Total Positivity [15.023842222803058]
現在のアルゴリズムはブロック座標降下法や近点アルゴリズムを用いて設計されている。
本稿では,2次元投影法に基づく新しいアルゴリズムを提案し,慎重に設計された探索方向と変数分割方式を取り入れた。
合成および実世界のデータセットに対する実験結果から,提案アルゴリズムは最先端の手法と比較して計算効率を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-03T14:39:10Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Linear time dynamic programming for the exact path of optimal models
selected from a finite set [0.38073142980732994]
本稿では,動的プログラミングアルゴリズムを用いて,ブレークポイントを線形時間で計算できることを示す。
点検出問題に対する実証的な結果から,精度と速度の向上が示された。
論文 参考訳(メタデータ) (2020-03-05T18:16:58Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。