論文の概要: From Kernels to Attention: A Transformer Framework for Density and Score Estimation
- arxiv url: http://arxiv.org/abs/2511.05924v1
- Date: Sat, 08 Nov 2025 08:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.656107
- Title: From Kernels to Attention: A Transformer Framework for Density and Score Estimation
- Title(参考訳): カーネルから注意へ:密度とスコア推定のためのトランスフォーマフレームワーク
- Authors: Vasily Ilin, Peter Sushko,
- Abstract要約: 共同スコアと密度推定のための統合された注意ベースフレームワークを提案する。
我々は、確率密度$f(x)$とスコア$nabla_x log f(x)$の両方をi.d.サンプルから直接推定する置換変圧器とアフィン等価変圧器を開発した。
- 参考スコア(独自算出の注目度): 0.47745223151611654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a unified attention-based framework for joint score and density estimation. Framing the problem as a sequence-to-sequence task, we develop a permutation- and affine-equivariant transformer that estimates both the probability density $f(x)$ and its score $\nabla_x \log f(x)$ directly from i.i.d. samples. Unlike traditional score-matching methods that require training a separate model for each distribution, our approach learns a single distribution-agnostic operator that generalizes across densities and sample sizes. The architecture employs cross-attention to connect observed samples with arbitrary query points, enabling generalization beyond the training data, while built-in symmetry constraints ensure equivariance to permutation and affine transformations. Analytically, we show that the attention weights can recover classical kernel density estimation (KDE), and verify it empirically, establishing a principled link between classical KDE and the transformer architecture. Empirically, the model achieves substantially lower error and better scaling than KDE and score-debiased KDE (SD-KDE), while exhibiting better runtime scaling. Together, these results establish transformers as general-purpose, data-adaptive operators for nonparametric density and score estimation.
- Abstract(参考訳): 共同スコアと密度推定のための統合された注意ベースフレームワークを提案する。
確率密度$f(x)$とそのスコア$\nabla_x \log f(x)$をi.d.サンプルから直接推定する置換およびアフィン同変変換器を開発する。
分布毎に個別のモデルを訓練する必要がある従来のスコアマッチング法とは異なり、本手法では密度とサンプルサイズをまたいで一般化する単一分布に依存しない演算子を学習する。
このアーキテクチャは、観測されたサンプルを任意のクエリポイントで接続するために、クロスアテンションを使用し、トレーニングデータを超えた一般化を可能にし、一方、対称性の制約が置換とアフィン変換に等しくなることを保証している。
解析的に、注目重みは古典的カーネル密度推定(KDE)を復元し、それを実証的に検証し、古典的KDEと変圧器アーキテクチャの原則的リンクを確立する。
経験的に、このモデルはKDEやKDE(SD-KDE)よりもはるかに低いエラーとスケーリングを実現し、実行時のスケーリングも改善した。
これらの結果は、非パラメトリック密度とスコア推定のための汎用データ適応演算子として変換器を確立する。
関連論文リスト
- Score-Based Model for Low-Rank Tensor Recovery [49.158601255093416]
低ランクテンソル分解(TD)は、マルチウェイデータ解析に有効なフレームワークを提供する。
従来のTD法は、CPやタッカー分解のような事前定義された構造的仮定に依存している。
本稿では,事前定義された構造的仮定や分布的仮定の必要性を排除したスコアベースモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T15:05:37Z) - LGU-SLAM: Learnable Gaussian Uncertainty Matching with Deformable Correlation Sampling for Deep Visual SLAM [11.715999663401591]
学習可能な2次元ガウス不確実性モデルは、マッチングフレームペアを関連付けるように設計されている。
マルチスケールの変形可能な相関戦略を考案し、各方向のサンプリングを適応的に微調整する。
本手法の有効性と優位性を検証するために,実世界のデータセットと合成データセットの実験を行った。
論文 参考訳(メタデータ) (2024-10-30T17:20:08Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Robust scalable initialization for Bayesian variational inference with
multi-modal Laplace approximations [0.0]
フル共分散構造を持つ変分混合は、パラメータ数による変動パラメータによる二次的な成長に苦しむ。
本稿では,変分推論のウォームスタートに使用できる初期ガウスモデル近似を構築する方法を提案する。
論文 参考訳(メタデータ) (2023-07-12T19:30:04Z) - Nonparametric Probabilistic Regression with Coarse Learners [1.8275108630751844]
我々は, 密度の形状や形状について最小限の仮定で, 正確な条件密度を計算することができることを示す。
このアプローチをさまざまなデータセットで実証し、特に大きなデータセットで競合性能を示す。
論文 参考訳(メタデータ) (2022-10-28T16:25:26Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。