論文の概要: Linear Transformers Implicitly Discover Unified Numerical Algorithms
- arxiv url: http://arxiv.org/abs/2509.19702v1
- Date: Wed, 24 Sep 2025 02:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.666764
- Title: Linear Transformers Implicitly Discover Unified Numerical Algorithms
- Title(参考訳): 線形変圧器による一元化数値アルゴリズムの探索
- Authors: Patrick Lutz, Aditya Gangrade, Hadi Daneshmand, Venkatesh Saligrama,
- Abstract要約: 数百万のマスクブロック行列完了タスクに対して線形アテンション変換器を訓練する。
モデルでは入力出力対と平均二乗損失しか見ていないが、通常の方程式や手作りの反復は与えられず、タスクが関連しているというヒントも与えられていない。
我々は,このルールが完全バッチ問題に対する2次収束を実現し,分散イテレーションの複雑さを減らし,ランク限定の注意を払って精度を保っていることを証明した。
- 参考スコア(独自算出の注目度): 28.247731784318404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train a linear attention transformer on millions of masked-block matrix completion tasks: each prompt is masked low-rank matrix whose missing block may be (i) a scalar prediction target or (ii) an unseen kernel slice of Nystr\"om extrapolation. The model sees only input-output pairs and a mean-squared loss; it is given no normal equations, no handcrafted iterations, and no hint that the tasks are related. Surprisingly, after training, algebraic unrolling reveals the same parameter-free update rule across three distinct computational regimes (full visibility, rank-limited updates, and distributed computation). We prove that this rule achieves second-order convergence on full-batch problems, cuts distributed iteration complexity, and remains accurate with rank-limited attention. Thus, a transformer trained solely to patch missing blocks implicitly discovers a unified, resource-adaptive iterative solver spanning prediction, estimation, and Nystr\"om extrapolation, highlighting a powerful capability of in-context learning.
- Abstract(参考訳): 我々は、数百万のマスクブロック行列完了タスクに対して線形注意変換器を訓練する:各プロンプトは、欠落ブロックである可能性のある低ランク行列をマスクする。
(i)スカラー予測対象又は
(ii)Nystr\"om外挿の目に見えないカーネルスライス。
モデルでは入力出力対と平均二乗損失しか見ていないが、通常の方程式や手作りの反復は与えられず、タスクが関連しているというヒントも与えられていない。
驚くべきことに、トレーニング後、代数的アンローリングは3つの異なる計算規則(フル可視性、ランク制限更新、分散計算)で同じパラメータフリー更新ルールを明らかにする。
我々は,このルールが完全バッチ問題に対する2次収束を実現し,分散イテレーションの複雑さを減らし,ランク限定の注意を払って精度を保っていることを証明した。
このように、欠落したブロックにパッチを当てるように訓練されたトランスフォーマーは、予測、推定、およびNystr\"om外挿にまたがる統一的でリソース順応的なイテレーティブ・ソルバを暗黙的に発見し、コンテキスト内学習の強力な能力を強調している。
関連論文リスト
- In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - A Second-Order Majorant Algorithm for Nonnegative Matrix Factorization [2.646309221150203]
我々はNMFの2次最適化フレームワークを2次および$beta$-divergence損失関数の両方で導入する。
第二次行列 (SOM) は、ロス関数の局所的な二次的二次化をヘッセン行列の二次化によって構成する。
我々はmSOMが複数の損失関数にまたがる最先端のアルゴリズムより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-03-31T12:09:36Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Training Recurrent Neural Networks by Sequential Least Squares and the
Alternating Direction Method of Multipliers [0.20305676256390928]
本稿では、最適隠れネットワークパラメータを決定するために凸と2倍の差分損失と正規化項を用いることを提案する。
逐次最小二乗と交互方向乗算器を組み合わせる。
このアルゴリズムの性能は非線形システム同定ベンチマークで検証される。
論文 参考訳(メタデータ) (2021-12-31T08:43:04Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - A Scalable, Adaptive and Sound Nonconvex Regularizer for Low-rank Matrix
Completion [60.52730146391456]
そこで我々は,適応的かつ音質の高い"核フロベニウスノルム"と呼ばれる新しい非スケーラブルな低ランク正規化器を提案する。
特異値の計算をバイパスし、アルゴリズムによる高速な最適化を可能にする。
既存の行列学習手法では最速でありながら、最先端の回復性能が得られる。
論文 参考訳(メタデータ) (2020-08-14T18:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。