論文の概要: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- arxiv url: http://arxiv.org/abs/2305.00660v2
- Date: Mon, 17 Feb 2025 05:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:23.607228
- Title: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- Title(参考訳): 再スケール型双曲関数回帰の反復アルゴリズム
- Authors: Yeqi Gao, Zhao Song, Junze Yin,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。
LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
- 参考スコア(独自算出の注目度): 7.578147116161996
- License:
- Abstract: Large language models (LLMs) have numerous real-life applications across various domains, such as natural language translation, sentiment analysis, language modeling, chatbots and conversational agents, creative writing, text classification, summarization, and generation. LLMs have shown great promise in improving the accuracy and efficiency of these tasks, and have the potential to revolutionize the field of natural language processing (NLP) in the years to come. Exponential function based attention unit is a fundamental element in LLMs. Several previous works have studied the convergence of exponential regression and softmax regression. In this paper, we propose an iterative algorithm to solve a rescaled version of the slightly different formulation of the softmax regression problem that arises in attention mechanisms of large language models. Specifically, we consider minimizing the squared loss between a certain function, which can be either the exponential function, hyperbolic sine function, or hyperbolic cosine function, and its inner product with a target $n$-dimensional vector $b$, scaled by the normalization term. This ``rescaled softmax regression'' differs from classical softmax regression in the location of the normalization factor. The efficiency and generalizability of this framework to multiple hyperbolic functions make it relevant for optimizing attention mechanisms. The analysis also leads to a corollary bounding solution changes under small perturbations for in-context learning. Limitations and societal impact are discussed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語翻訳、感情分析、言語モデリング、チャットボットと会話エージェント、クリエイティブな文章作成、テキスト分類、要約、生成など、さまざまな領域にまたがる多数の現実的な応用を持つ。
LLMはこれらのタスクの精度と効率を改善する上で大きな可能性を示しており、今後数年間で自然言語処理(NLP)の分野に革命をもたらす可能性がある。
指数関数に基づくアテンションユニットはLLMの基本要素である。
いくつかの先行研究は指数回帰とソフトマックス回帰の収束を研究した。
本稿では,大規模言語モデルの注意機構に生じるソフトマックス回帰問題の,わずかに異なる定式化の再スケール版を解くための反復アルゴリズムを提案する。
具体的には、指数関数、双曲型正弦関数、双曲型コサイン関数のいずれかであるある関数と、正規化項によって拡大された目標$n$次元ベクトル$b$の内積の間の二乗損失を最小化することを検討する。
この「再スケールソフトマックス回帰」は、正規化係数の位置における古典的ソフトマックス回帰とは異なる。
このフレームワークの多重双曲関数への効率性と一般化性は、注意機構の最適化に関係している。
この分析は、文脈内学習のための小さな摂動の下での論理的境界解の変化にも繋がる。
限界と社会的影響について論じる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Piecewise linear regression and classification [0.20305676256390928]
本稿では,線形予測器を用いた多変量回帰と分類問題の解法を提案する。
本論文で記述されたアルゴリズムのpython実装は、http://cse.lab.imtlucca.it/bemporad/parcで利用可能である。
論文 参考訳(メタデータ) (2021-03-10T17:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。