Fugu-MT 論文翻訳(概要): An Iterative Algorithm for Rescaled Hyperbolic Functions Regression

論文の概要: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression

arxiv url: http://arxiv.org/abs/2305.00660v2
Date: Mon, 17 Feb 2025 05:12:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.03242
Title: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
Title（参考訳）: 再スケール型双曲関数回帰の反復アルゴリズム
Authors: Yeqi Gao, Zhao Song, Junze Yin,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。 LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
参考スコア（独自算出の注目度）: 7.578147116161996
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have numerous real-life applications across various domains, such as natural language translation, sentiment analysis, language modeling, chatbots and conversational agents, creative writing, text classification, summarization, and generation. LLMs have shown great promise in improving the accuracy and efficiency of these tasks, and have the potential to revolutionize the field of natural language processing (NLP) in the years to come. Exponential function based attention unit is a fundamental element in LLMs. Several previous works have studied the convergence of exponential regression and softmax regression. In this paper, we propose an iterative algorithm to solve a rescaled version of the slightly different formulation of the softmax regression problem that arises in attention mechanisms of large language models. Specifically, we consider minimizing the squared loss between a certain function, which can be either the exponential function, hyperbolic sine function, or hyperbolic cosine function, and its inner product with a target $n$-dimensional vector $b$, scaled by the normalization term. This ``rescaled softmax regression'' differs from classical softmax regression in the location of the normalization factor. The efficiency and generalizability of this framework to multiple hyperbolic functions make it relevant for optimizing attention mechanisms. The analysis also leads to a corollary bounding solution changes under small perturbations for in-context learning. Limitations and societal impact are discussed.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語翻訳、感情分析、言語モデリング、チャットボットと会話エージェント、クリエイティブな文章作成、テキスト分類、要約、生成など、さまざまな領域にまたがる多数の現実的な応用を持つ。 LLMはこれらのタスクの精度と効率を改善する上で大きな可能性を示しており、今後数年間で自然言語処理(NLP)の分野に革命をもたらす可能性がある。指数関数に基づくアテンションユニットはLLMの基本要素である。いくつかの先行研究は指数回帰とソフトマックス回帰の収束を研究した。本稿では,大規模言語モデルの注意機構に生じるソフトマックス回帰問題の,わずかに異なる定式化の再スケール版を解くための反復アルゴリズムを提案する。具体的には、指数関数、双曲型正弦関数、双曲型コサイン関数のいずれかであるある関数と、正規化項によって拡大された目標$n$次元ベクトル$b$の内積の間の二乗損失を最小化することを検討する。この「再スケールソフトマックス回帰」は、正規化係数の位置における古典的ソフトマックス回帰とは異なる。このフレームワークの多重双曲関数への効率性と一般化性は、注意機構の最適化に関係している。この分析は、文脈内学習のための小さな摂動の下での論理的境界解の変化にも繋がる。限界と社会的影響について論じる。

関連論文リスト

Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文参考訳（メタデータ） (2025-09-29T12:55:50Z)
Inverse Reinforcement Learning Using Just Classification and a Few Regressions [38.71913609455455]
逆強化学習は、基礎となる報酬を明らかにすることによって観察された振る舞いを説明することを目的としている。集団最大化解は, 行動方針を含む線形不動点方程式によって特徴づけられることを示す。最適解法,一般オラクルアルゴリズム,有限サンプル誤差境界,およびMaxEnt IRLに対する競合的あるいは優れた性能を示す実験結果の正確な評価を行う。
論文参考訳（メタデータ） (2025-09-25T13:53:43Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
How to Inverting the Leverage Score Distribution? [16.744561210470632]
ツールとして広く利用されているレバレッジスコアにもかかわらず、本論文では、新しい問題、すなわち反転レバレッジスコアについて検討する。我々は、ニュートン法における大域収束率を確保するために反復縮小と帰納仮説を用いる。この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。
論文参考訳（メタデータ） (2024-04-21T21:36:42Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Local Convergence of Approximate Newton Method for Two Layer Nonlinear Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文参考訳（メタデータ） (2023-11-26T19:19:02Z)
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-22T05:32:19Z)
Distribution-Independent Regression for Generalized Linear Models with Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文参考訳（メタデータ） (2023-09-20T21:41:59Z)
In-Context Learning for Attention Scheme: from Single Softmax Regression to Multiple Softmax Regression via a Tensor Trick [15.090593955414137]
本研究では,本研究における注意関係回帰のための2つの定式化に基づく文脈内学習について考察する。我々の回帰問題は、ソフトマックス関連回帰に関する以前の研究と類似している。
論文参考訳（メタデータ） (2023-07-05T16:41:01Z)
The Closeness of In-Context Learning and Weight Shifting for Softmax Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文参考訳（メタデータ） (2023-04-26T04:33:41Z)
Attention Scheme Inspired Softmax Regression [20.825033982038455]
大きな言語モデル(LLM)は、人間の社会に変革をもたらした。 LLMにおける鍵計算の1つはソフトマックス単位である。この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
論文参考訳（メタデータ） (2023-04-20T15:50:35Z)
An Over-parameterized Exponential Regression [18.57735939471469]
LLM(Large Language Models)の分野での最近の発展は、指数的アクティベーション関数の使用への関心を喚起している。ニューラル関数 $F: mathbbRd times m times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRdd
論文参考訳（メタデータ） (2023-03-29T07:29:07Z)
Solving Regularized Exp, Cosh and Sinh Regression Problems [40.47799094316649]
注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルの基本的なタスクである。素直な方法はニュートンの方法を使うことである。
論文参考訳（メタデータ） (2023-03-28T04:26:51Z)
Private Isotonic Regression [54.32252900997422]
部分順序集合 (poset) $mathcalX$ と任意のリプシッツ損失関数に対する等調回帰の問題を考察する。約$mathrmwidth(mathcalX) cdot log|mathcalX| / n$, ここで$mathrmwidth(mathcalX)$はポーズの幅である。上記の境界は本質的に最良であることを示す。
論文参考訳（メタデータ） (2022-10-27T05:08:07Z)
Adaptive LASSO estimation for functional hidden dynamic geostatistical model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文参考訳（メタデータ） (2022-08-10T19:17:45Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Learning a Single Neuron with Adversarial Label Noise via Gradient Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文参考訳（メタデータ） (2022-06-17T17:55:43Z)
Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。我々はこの$d$への依存が対数的要因まで最適であることを示す。また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文参考訳（メタデータ） (2021-11-09T00:20:01Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Piecewise linear regression and classification [0.20305676256390928]
本稿では,線形予測器を用いた多変量回帰と分類問題の解法を提案する。本論文で記述されたアルゴリズムのpython実装は、http://cse.lab.imtlucca.it/bemporad/parcで利用可能である。
論文参考訳（メタデータ） (2021-03-10T17:07:57Z)
Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文参考訳（メタデータ） (2020-11-24T22:39:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。