Fugu-MT 論文翻訳(概要): Solving Attention Kernel Regression Problem via Pre-conditioner

論文の概要: Solving Attention Kernel Regression Problem via Pre-conditioner

arxiv url: http://arxiv.org/abs/2308.14304v1
Date: Mon, 28 Aug 2023 04:37:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 15:45:51.466700
Title: Solving Attention Kernel Regression Problem via Pre-conditioner
Title（参考訳）: プレコンディショナーによる注意カーネル回帰問題の解法
Authors: Zhao Song, Junze Yin, Lichen Zhang
Abstract要約: 我々は、注目カーネル回帰問題と呼ばれる新しい問題を定義し、研究する。データ行列の入力間隔時間におけるアテンションカーネル回帰の解法を示す。
参考スコア（独自算出の注目度）: 10.262762637015733
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models have shown impressive performance in many tasks. One of the major features from the computation perspective is computing the attention matrix. Previous works [Zandieh, Han, Daliri, and Karba 2023, Alman and Song 2023] have formally studied the possibility and impossibility of approximating the attention matrix. In this work, we define and study a new problem which is called the attention kernel regression problem. We show how to solve the attention kernel regression in the input sparsity time of the data matrix.
Abstract（参考訳）: 大規模な言語モデルは、多くのタスクで素晴らしいパフォーマンスを示している。計算の観点からの大きな特徴の1つは注意行列の計算である。以前の作品(ザンディー、ハン、ダリリ、カルバ2023、アルマン、ソン2023)は、注意行列の近似の可能性と不可能性を正式に研究している。本研究では,注意核回帰問題と呼ばれる新しい問題を定義し,研究する。本稿では,データ行列の入力スパーシティ時間における注意核回帰の解法を示す。

関連論文リスト

Improved Algorithms for Kernel Matrix-Vector Multiplication Under Sparsity Assumptions [23.539428616884035]
非対称ガウス・ケルネル行列に対する行列ベクトル積の高速アルゴリズムについて研究する。我々のアルゴリズムは、$K$に関する以下のモデリング仮定に依存している: 最悪のケースの成長とは対照的に、$K$のエントリの合計は$n$で線形にスケールする。我々は、この仮定の下で動作し、制約のない計算を行う最初の準四進時間アルゴリズムを得る。
論文参考訳（メタデータ） (2025-07-31T13:29:43Z)
Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文参考訳（メタデータ） (2024-08-16T02:33:07Z)
How to Inverting the Leverage Score Distribution? [16.744561210470632]
ツールとして広く利用されているレバレッジスコアにもかかわらず、本論文では、新しい問題、すなわち反転レバレッジスコアについて検討する。我々は、ニュートン法における大域収束率を確保するために反復縮小と帰納仮説を用いる。この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。
論文参考訳（メタデータ） (2024-04-21T21:36:42Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Structured Semidefinite Programming for Recovering Structured Preconditioners [41.28701750733703]
正定値$mathbfK を mathbbRd times d$ と $mathrmnnz(mathbfK)$ の 0 でないエントリで与えられるアルゴリズムは、時間内に$epsilon$-optimal diagonal preconditioner を計算する。我々は、行列辞書近似SDPと呼ばれる半定値プログラムのクラスに対して、新しいアルゴリズムを用いて結果を得る。
論文参考訳（メタデータ） (2023-10-27T16:54:29Z)
One-sided Matrix Completion from Two Observations Per Row [95.87811229292056]
行列の欠落値を$XTX$で計算する自然アルゴリズムを提案する。合成データの一方の回収と低被覆ゲノムシークエンシングについて,本アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2023-06-06T22:35:16Z)
Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。目標は、低ランク因子の積として$mathbfA$を近似することである。我々の手法はBMF問題の他の一般的な変種に一般化する。
論文参考訳（メタデータ） (2023-06-02T18:55:27Z)
Solving Regularized Exp, Cosh and Sinh Regression Problems [40.47799094316649]
注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルの基本的なタスクである。素直な方法はニュートンの方法を使うことである。
論文参考訳（メタデータ） (2023-03-28T04:26:51Z)
A General Algorithm for Solving Rank-one Matrix Sensing [15.543065204102714]
マトリックスセンシングの目標は、一連の測定に基づいて、mathbbRn×n$の行列$A_starを復元することである。本稿では、このランク-$kの仮定を緩和し、より一般的な行列センシング問題を解く。
論文参考訳（メタデータ） (2023-03-22T04:07:26Z)
A Nearly-Optimal Bound for Fast Regression with $\ell_\infty$ Guarantee [16.409210914237086]
行列 $Ain mathbbRntimes d$ とテンソル $bin mathbbRn$ が与えられたとき、 $ell_infty$ の回帰問題を考える。このような$ell_infty$レグレッションの保証を得るためには、濃密なスケッチ行列を使わなければならない。我々はまた、OCE(Oblivious Coordinate-wise Embedding)特性を利用した $ell_infty$ guarantee regression のための新しい分析フレームワークを開発した。
論文参考訳（メタデータ） (2023-02-01T05:22:40Z)
Sketching Algorithms and Lower Bounds for Ridge Regression [65.0720777731368]
リッジ回帰問題に対する1+varepsilon$近似解を計算するスケッチベース反復アルゴリズムを提案する。また,このアルゴリズムがカーネルリッジ回帰の高速化に有効であることを示す。
論文参考訳（メタデータ） (2022-04-13T22:18:47Z)
Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文参考訳（メタデータ） (2021-05-17T16:40:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。