論文の概要: Data-Aware Random Feature Kernel for Transformers
- arxiv url: http://arxiv.org/abs/2603.04127v1
- Date: Wed, 04 Mar 2026 14:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.352763
- Title: Data-Aware Random Feature Kernel for Transformers
- Title(参考訳): 変圧器用データ認識ランダム特徴カーネル
- Authors: Amirhossein Farzam, Hossein Mobahi, Nolan Andrew Miller, Luke Sernau,
- Abstract要約: 事前訓練されたモデルでは、クエリとキーは典型的には異方的であり、これは等方的サンプリングスキームにおいて高いモンテカルロ分散を引き起こす。
我々はDARKFormerを紹介した。DARKFormerはデータ対応のカーネル幾何を特徴とするデータ対応ランダム関数カーネルトランスである。
ランダム機能効率とデータ認識カーネルを組み合わせることで、DARKFormerはリソース制約された設定においてカーネルベースの注意を喚起する。
- 参考スコア(独自算出の注目度): 7.455696124254561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers excel across domains, yet their quadratic attention complexity poses a barrier to scaling. Random-feature attention, as in Performers, can reduce this cost to linear in the sequence length by approximating the softmax kernel with positive random features drawn from an isotropic distribution. In pretrained models, however, queries and keys are typically anisotropic. This induces high Monte Carlo variance in isotropic sampling schemes unless one retrains the model or uses a large feature budget. Importance sampling can address this by adapting the sampling distribution to the input geometry, but complex data-dependent proposal distributions are often intractable. We show that by data aligning the softmax kernel, we obtain an attention mechanism which can both admit a tractable minimal-variance proposal distribution for importance sampling, and exhibits better training stability. Motivated by this finding, we introduce DARKFormer, a Data-Aware Random-feature Kernel transformer that features a data-aligned kernel geometry. DARKFormer learns the random-projection covariance, efficiently realizing an importance-sampled positive random-feature estimator for its data-aligned kernel. Empirically, DARKFormer narrows the performance gap with exact softmax attention, particularly in finetuning regimes where pretrained representations are anisotropic. By combining random-feature efficiency with data-aware kernels, DARKFormer advances kernel-based attention in resource-constrained settings.
- Abstract(参考訳): トランスフォーマーはドメインをまたいで拡張するが、その二次的な注意の複雑さはスケーリングの障壁となる。
Performersのようにランダムな注意は、このコストを、等方分布から引き出された正のランダム特徴を持つソフトマックスカーネルを近似することにより、シーケンス長の線形化に還元することができる。
しかし、事前訓練されたモデルでは、クエリとキーは通常異方性である。
これにより、モデルを再訓練したり、大きな特徴予算を使わない限り、等方的サンプリングスキームのモンテカルロ分散が高くなる。
重要サンプリングは、サンプリング分布を入力幾何学に適応させることでこの問題に対処できるが、複雑なデータ依存の提案分布は、しばしば難解である。
ソフトマックスカーネルを整列したデータを用いて,重要サンプリングのための最小分散提案分布を抽出可能とし,より優れたトレーニング安定性を示すアテンション機構が得られた。
この発見に触発されたDARKFormerは、データ整合したカーネル幾何を特徴とするデータ認識ランダム機能カーネルトランスである。
DARKFormerはランダムプロジェクションの共分散を学習し、データ整列カーネルの重要サンプル正の確率関数推定器を効率的に実現する。
経験的に、DARKFormerは、特に事前訓練された表現が異方性である微調整方式において、パフォーマンスギャップを正確にソフトマックスの注意で狭める。
ランダム機能効率とデータ認識カーネルを組み合わせることで、DARKFormerはリソース制約された設定においてカーネルベースの注意を喚起する。
関連論文リスト
- Scalable Random Wavelet Features: Efficient Non-Stationary Kernel Approximation with Convergence Guarantees [5.758073912084366]
そこで我々はRandom Wavelet Features (RWF)を紹介した。これはスケーラブルで非定常なカーネル近似をウェーブレットファミリーからのサンプリングによって構築するフレームワークである。
ウェーブレットの局所化と多重解像度構造を利用して、RWFは複雑な入力依存パターンをキャプチャする明示的な特徴写像を生成する。
我々は、RWFが静止したランダムな特徴より優れ、説得力のある精度と効率のトレードオフを提供する、様々な挑戦的な合成および実世界のデータセットを実証的に実証する。
論文 参考訳(メタデータ) (2026-02-01T02:56:56Z) - Scalable Gaussian Processes with Low-Rank Deep Kernel Decomposition [7.532273334759435]
カーネルはガウス過程(GP)モデルにおいて、事前の信念とデータ構造を符号化する鍵である。
ディープカーネル学習は、標準的なパラメトリック形式を適用する前に、ニューラルネットワークを介して入力を入力することで、カーネルの柔軟性を向上させる。
我々は、ニューラルネットワークが直接低ランクカーネルを表現する、完全にデータ駆動でスケーラブルなディープカーネル表現を導入する。
論文 参考訳(メタデータ) (2025-05-24T05:42:11Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Score-based Diffusion Models in Function Space [137.70916238028306]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
この研究は、関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)と呼ばれる数学的に厳密なフレームワークを導入する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Local Random Feature Approximations of the Gaussian Kernel [14.230653042112834]
本稿では,一般的なガウスカーネルと,ランダムな特徴近似を用いてカーネルベースモデルを線形化する手法に着目する。
このような手法は、高周波データをモデル化する際、悪い結果をもたらすことを示すとともに、カーネル近似と下流性能を大幅に改善する新たなローカライズ手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T09:52:36Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Decentralised Learning with Random Features and Distributed Gradient
Descent [39.00450514924611]
本研究では,不規則な正規化とランダムな特徴を持つ分散グラディエントDescentの均質な環境下での一般化性能について検討する。
ステップサイズ,繰り返し回数,通信行列の逆スペクトルギャップ,ランダム特徴数の関数として,各エージェントの予測性能に高い確率境界を確立する。
本稿では,ランダムな特徴数,イテレーション数,サンプル数が予測性能に与える影響をシミュレーションで示す。
論文 参考訳(メタデータ) (2020-07-01T09:55:09Z) - Scaling up Kernel Ridge Regression via Locality Sensitive Hashing [6.704115928005158]
ランダムな双対関数の重み付け版を導入し、対応するカーネル関数が滑らかなガウス過程を生成することを示す。
重み付けされたランダムなバイナリ化特徴は、対応するカーネル行列にスペクトル近似を与え、カーネルリッジ回帰の効率的なアルゴリズムをもたらすことを示す。
論文 参考訳(メタデータ) (2020-03-21T21:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。