論文の概要: Deriving the Scaled-Dot-Function via Maximum Likelihood Estimation and Maximum Entropy Approach
- arxiv url: http://arxiv.org/abs/2509.12285v1
- Date: Sun, 14 Sep 2025 19:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.681623
- Title: Deriving the Scaled-Dot-Function via Maximum Likelihood Estimation and Maximum Entropy Approach
- Title(参考訳): 最大近似推定と最大エントロピーアプローチによるスケールドドット関数の導出
- Authors: Jiyong Ma,
- Abstract要約: 本稿では,変圧器モデルにおける値ベクトルを決定するための最大推定手法を提案する。
ガウス分布の分散は、時間ステップ、対応するキーベクトル、およびクエリベクトルに依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a maximum likelihood estimation approach to determine the value vector in transformer models. We model the sequence of value vectors, key vectors, and the query vector as a sequence of Gaussian distributions. The variance in each Gaussian distribution depends on the time step, the corresponding key vector, and the query vector. The mean value in each Gaussian distribution depends on the time step, and the corresponding value vector. This analysis may offer a new explanation of the scaled-dot-product function or softmax function used in transformer architectures [1]. Another explanation, inspired by [4], is based on the maximum entropy approach in natural language processing [5]. In this approach, a query vector and key vectors are used to derive the feature functions for the maximum entropy model.
- Abstract(参考訳): 本稿では,変圧器モデルにおける値ベクトルを決定するための最大推定手法を提案する。
ガウス分布の列として,値ベクトル,キーベクトル,クエリベクトルの列をモデル化する。
ガウス分布の分散は、時間ステップ、対応するキーベクトル、およびクエリベクトルに依存する。
ガウス分布の平均値は時間ステップと対応する値ベクトルに依存する。
この分析は、変換器アーキテクチャ [1] で使われるスケールド・ドット積関数やソフトマックス関数について、新しい説明を提供するかもしれない。
4]にインスパイアされた別の説明は、自然言語処理における最大エントロピーアプローチ [5] に基づいている。
提案手法では,問合せベクトルとキーベクトルを用いて最大エントロピーモデルの特徴関数を導出する。
関連論文リスト
- Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
語彙空間におけるトークンレベルの分布の進化を直接研究する。
我々は,各中間予測分布のシャノンエントロピーを計算し,各層に1つの解釈可能なスカラーを与える。
本稿では, 既成の冷凍変圧器からエントロピープロファイルを抽出するモデルに依存しないフレームワークであるEntropy-Lensを紹介する。
論文 参考訳(メタデータ) (2025-02-23T13:33:27Z) - EigenVI: score-based variational inference with orthogonal function expansions [23.696028065251497]
EigenVIはブラックボックス変分推論(BBVI)のための固有値に基づくアプローチである
我々はEigenVIを用いて様々なターゲット分布を近似し、例えば後方dbのベイズモデルのベンチマークスイートを含む。
論文 参考訳(メタデータ) (2024-10-31T15:48:34Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Consistency of some sequential experimental design strategies for
excursion set estimation based on vector-valued Gaussian processes [0.32634122554914]
ステップワイド不確かさ低減のための連続実験設計戦略において,ベクトル値の整合性のケースの拡張に取り組んだ。
本研究では, 自動海洋サンプリングのためのベクトル値付きガウス確率場の探索集合, The Annals of Applied Statistics 15, 2021] を用いて, ベクトル値付き関数の探索集合を推定するために, 統合ベルヌーイ変数と期待値の不確実性関数に適用する。
論文 参考訳(メタデータ) (2023-10-11T09:02:03Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Covariance Prediction via Convex Optimization [0.0]
一般化線形モデルの形式を持つ共分散予測器,すなわち特徴のアフィン関数,および逆リンク関数を記述する。
log-likelihoodは予測パラメータの凹関数であるため、予測パラメータの適合には凸最適化が伴う。
論文 参考訳(メタデータ) (2021-01-29T06:06:58Z) - Analyzing Upper Bounds on Mean Absolute Errors for Deep Neural Network
Based Vector-to-Vector Regression [79.86233860519621]
本稿では,ディープニューラルネットワーク(DNN)を用いたベクトル-ベクトル回帰において,平均絶対誤差と期待特徴誤差の間に一般化された誤差(MAE)が存在することを示す。
DNNに基づくベクトル-ベクトル回帰のためのMAEの上界を提案する。
論文 参考訳(メタデータ) (2020-08-04T19:39:41Z) - tvGP-VAE: Tensor-variate Gaussian Process Prior Variational Autoencoder [0.0]
tvGP-VAEはカーネル関数を使用して相関を明示的にモデル化することができる。
そこで本研究では,どの相関構造を潜在空間で明示的に表現するかの選択が,モデル性能に大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2020-06-08T17:59:13Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Gaussianization Flows [113.79542218282282]
そこで本研究では,サンプル生成における効率のよい繰り返しと効率のよい逆変換を両立できる新しい型正規化フローモデルを提案する。
この保証された表現性のため、サンプル生成の効率を損なうことなく、マルチモーダルなターゲット分布をキャプチャできる。
論文 参考訳(メタデータ) (2020-03-04T08:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。