論文の概要: Transformers as Unrolled Inference in Probabilistic Laplacian Eigenmaps: An Interpretation and Potential Improvements
- arxiv url: http://arxiv.org/abs/2507.21040v1
- Date: Mon, 28 Jul 2025 17:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.24473
- Title: Transformers as Unrolled Inference in Probabilistic Laplacian Eigenmaps: An Interpretation and Potential Improvements
- Title(参考訳): 確率ラプラス固有写像におけるアンロール推論としての変換子:解釈とポテンシャル改善
- Authors: Aditya Ravuri, Neil D. Lawrence,
- Abstract要約: 初期化時には、変換器が「線形」次元還元を行うことを示す。
また、変換器ブロック内では、注意行列ではなく、グラフラプラシアン項が我々の議論から生じることも示している。
- 参考スコア(独自算出の注目度): 8.121681696358717
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a probabilistic interpretation of transformers as unrolled inference steps assuming a probabilistic Laplacian Eigenmaps model from the ProbDR framework. Our derivation shows that at initialisation, transformers perform "linear" dimensionality reduction. We also show that within the transformer block, a graph Laplacian term arises from our arguments, rather than an attention matrix (which we interpret as an adjacency matrix). We demonstrate that simply subtracting the identity from the attention matrix (and thereby taking a graph diffusion step) improves validation performance on a language model and a simple vision transformer.
- Abstract(参考訳): 本稿では,確率論的ラプラシアン固有写像モデルをProbDRフレームワークから推定するアンロール推論ステップとして,変圧器の確率論的解釈を提案する。
我々の導出は、初期化時に変換器が「線形」次元還元を行うことを示す。
また、変換器ブロック内では、アテンション行列ではなく、グラフラプラシアン項が引数から生じることも示している(これは隣接行列と解釈する)。
注意行列からIDを抽出する(グラフ拡散ステップを取る)だけで、言語モデルと単純な視覚変換器の検証性能が向上することを示す。
関連論文リスト
- The calculus of variations of the Transformer on the hyperspherical tangent bundle [0.0]
トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
変換器のオイラー・ラグランジュ方程式を導出する。
論文 参考訳(メタデータ) (2025-07-21T09:43:33Z) - Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。