論文の概要: Convergence of Two-Layer Regression with Nonlinear Units
- arxiv url: http://arxiv.org/abs/2308.08358v1
- Date: Wed, 16 Aug 2023 13:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:23:31.941823
- Title: Convergence of Two-Layer Regression with Nonlinear Units
- Title(参考訳): 非線形単位をもつ2層回帰の収束
- Authors: Yichuan Deng, Zhao Song, Shenghao Xie
- Abstract要約: 近似ニュートン法に基づくグリーディアルゴリズムを導入し, 最適解までの距離の意味で収束する。
リプシッツ条件を緩和し、損失値の意味で収束を証明する。
- 参考スコア(独自算出の注目度): 10.295897511849034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs), such as ChatGPT and GPT4, have shown
outstanding performance in many human life task. Attention computation plays an
important role in training LLMs. Softmax unit and ReLU unit are the key
structure in attention computation. Inspired by them, we put forward a softmax
ReLU regression problem. Generally speaking, our goal is to find an optimal
solution to the regression problem involving the ReLU unit. In this work, we
calculate a close form representation for the Hessian of the loss function.
Under certain assumptions, we prove the Lipschitz continuous and the PSDness of
the Hessian. Then, we introduce an greedy algorithm based on approximate Newton
method, which converges in the sense of the distance to optimal solution. Last,
We relax the Lipschitz condition and prove the convergence in the sense of loss
value.
- Abstract(参考訳): ChatGPTやGPT4のような大規模言語モデル(LLM)は、多くの人間のライフタスクにおいて優れたパフォーマンスを示している。
注意計算はLLMのトレーニングにおいて重要な役割を果たす。
ソフトマックスユニットとReLUユニットは注意計算の鍵となる構造である。
それらに触発されて,ソフトマックスReLU回帰問題を提起した。
一般に、我々の目標は、reluユニットを含む回帰問題の最適な解を見つけることである。
本研究では,損失関数のヘッシアンに対する密形式表現を計算する。
ある仮定の下で、我々はリプシッツ連続とヘッセンのpsd性を証明する。
次に,最適解までの距離という意味で収束する近似ニュートン法に基づくグリーディアルゴリズムを提案する。
最後に、リプシッツ条件を緩和し、損失値の意味で収束性を証明する。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Inverse Reinforcement Learning With Constraint Recovery [3.8073142980732992]
本稿では,制約決定過程(CMDP)問題に対する新しい逆強化学習法を提案する。
グリッドワールド環境におけるアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-14T11:49:37Z) - VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation [43.193807443491814]
一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
論文 参考訳(メタデータ) (2022-12-12T17:37:00Z) - Sparsest Univariate Learning Models Under Lipschitz Constraint [31.28451181040038]
一次元回帰問題に対する連続領域定式化を提案する。
リプシッツ定数をユーザ定義上界を用いて明示的に制御する。
いずれの問題も、連続的かつ断片的線形なグローバル最小化を許容していることが示される。
論文 参考訳(メタデータ) (2021-12-27T07:03:43Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。