論文の概要: Solving Attention Kernel Regression Problem via Pre-conditioner
- arxiv url: http://arxiv.org/abs/2308.14304v1
- Date: Mon, 28 Aug 2023 04:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 15:45:51.466700
- Title: Solving Attention Kernel Regression Problem via Pre-conditioner
- Title(参考訳): プレコンディショナーによる注意カーネル回帰問題の解法
- Authors: Zhao Song, Junze Yin, Lichen Zhang
- Abstract要約: 我々は、注目カーネル回帰問題と呼ばれる新しい問題を定義し、研究する。
データ行列の入力間隔時間におけるアテンションカーネル回帰の解法を示す。
- 参考スコア(独自算出の注目度): 10.262762637015733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have shown impressive performance in many tasks. One of
the major features from the computation perspective is computing the attention
matrix. Previous works [Zandieh, Han, Daliri, and Karba 2023, Alman and Song
2023] have formally studied the possibility and impossibility of approximating
the attention matrix. In this work, we define and study a new problem which is
called the attention kernel regression problem. We show how to solve the
attention kernel regression in the input sparsity time of the data matrix.
- Abstract(参考訳): 大規模な言語モデルは、多くのタスクで素晴らしいパフォーマンスを示している。
計算の観点からの大きな特徴の1つは注意行列の計算である。
以前の作品(ザンディー、ハン、ダリリ、カルバ2023、アルマン、ソン2023)は、注意行列の近似の可能性と不可能性を正式に研究している。
本研究では,注意核回帰問題と呼ばれる新しい問題を定義し,研究する。
本稿では,データ行列の入力スパーシティ時間における注意核回帰の解法を示す。
関連論文リスト
- Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - How to Inverting the Leverage Score Distribution? [16.744561210470632]
ツールとして広く利用されているレバレッジスコアにもかかわらず、本論文では、新しい問題、すなわち反転レバレッジスコアについて検討する。
我々は、ニュートン法における大域収束率を確保するために反復縮小と帰納仮説を用いる。
この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。
論文 参考訳(メタデータ) (2024-04-21T21:36:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Structured Semidefinite Programming for Recovering Structured
Preconditioners [41.28701750733703]
正定値$mathbfK を mathbbRd times d$ と $mathrmnnz(mathbfK)$ の 0 でないエントリで与えられるアルゴリズムは、時間内に$epsilon$-optimal diagonal preconditioner を計算する。
我々は、行列辞書近似SDPと呼ばれる半定値プログラムのクラスに対して、新しいアルゴリズムを用いて結果を得る。
論文 参考訳(メタデータ) (2023-10-27T16:54:29Z) - One-sided Matrix Completion from Two Observations Per Row [95.87811229292056]
行列の欠落値を$XTX$で計算する自然アルゴリズムを提案する。
合成データの一方の回収と低被覆ゲノムシークエンシングについて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-06-06T22:35:16Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
目標は、低ランク因子の積として$mathbfA$を近似することである。
我々の手法はBMF問題の他の一般的な変種に一般化する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Solving Regularized Exp, Cosh and Sinh Regression Problems [40.47799094316649]
注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルの基本的なタスクである。
素直な方法はニュートンの方法を使うことである。
論文 参考訳(メタデータ) (2023-03-28T04:26:51Z) - A General Algorithm for Solving Rank-one Matrix Sensing [15.543065204102714]
マトリックスセンシングの目標は、一連の測定に基づいて、mathbbRn×n$の行列$A_starを復元することである。
本稿では、このランク-$kの仮定を緩和し、より一般的な行列センシング問題を解く。
論文 参考訳(メタデータ) (2023-03-22T04:07:26Z) - A Nearly-Optimal Bound for Fast Regression with $\ell_\infty$ Guarantee [16.409210914237086]
行列 $Ain mathbbRntimes d$ とテンソル $bin mathbbRn$ が与えられたとき、 $ell_infty$ の回帰問題を考える。
このような$ell_infty$レグレッションの保証を得るためには、濃密なスケッチ行列を使わなければならない。
我々はまた、OCE(Oblivious Coordinate-wise Embedding)特性を利用した $ell_infty$ guarantee regression のための新しい分析フレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-01T05:22:40Z) - Sketching Algorithms and Lower Bounds for Ridge Regression [65.0720777731368]
リッジ回帰問題に対する1+varepsilon$近似解を計算するスケッチベース反復アルゴリズムを提案する。
また,このアルゴリズムがカーネルリッジ回帰の高速化に有効であることを示す。
論文 参考訳(メタデータ) (2022-04-13T22:18:47Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。