論文の概要: Transformers as Unrolled Inference in Probabilistic Laplacian Eigenmaps: An Interpretation and Potential Improvements
- arxiv url: http://arxiv.org/abs/2507.21040v1
- Date: Mon, 28 Jul 2025 17:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.24473
- Title: Transformers as Unrolled Inference in Probabilistic Laplacian Eigenmaps: An Interpretation and Potential Improvements
- Title(参考訳): 確率ラプラス固有写像におけるアンロール推論としての変換子:解釈とポテンシャル改善
- Authors: Aditya Ravuri, Neil D. Lawrence,
- Abstract要約: 初期化時には、変換器が「線形」次元還元を行うことを示す。
また、変換器ブロック内では、注意行列ではなく、グラフラプラシアン項が我々の議論から生じることも示している。
- 参考スコア(独自算出の注目度): 8.121681696358717
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a probabilistic interpretation of transformers as unrolled inference steps assuming a probabilistic Laplacian Eigenmaps model from the ProbDR framework. Our derivation shows that at initialisation, transformers perform "linear" dimensionality reduction. We also show that within the transformer block, a graph Laplacian term arises from our arguments, rather than an attention matrix (which we interpret as an adjacency matrix). We demonstrate that simply subtracting the identity from the attention matrix (and thereby taking a graph diffusion step) improves validation performance on a language model and a simple vision transformer.
- Abstract(参考訳): 本稿では,確率論的ラプラシアン固有写像モデルをProbDRフレームワークから推定するアンロール推論ステップとして,変圧器の確率論的解釈を提案する。
我々の導出は、初期化時に変換器が「線形」次元還元を行うことを示す。
また、変換器ブロック内では、アテンション行列ではなく、グラフラプラシアン項が引数から生じることも示している(これは隣接行列と解釈する)。
注意行列からIDを抽出する(グラフ拡散ステップを取る)だけで、言語モデルと単純な視覚変換器の検証性能が向上することを示す。
関連論文リスト
- The calculus of variations of the Transformer on the hyperspherical tangent bundle [0.0]
トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
変換器のオイラー・ラグランジュ方程式を導出する。
論文 参考訳(メタデータ) (2025-07-21T09:43:33Z) - Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Can Transformers Do Enumerative Geometry? [44.99833362998488]
計算列挙幾何に対する Transformer ベースのアプローチを提案する。
私たちは、10-45$から1045$までの値の交叉数を計算します。
ネットワークは、純粋にデータ駆動方式で、ヴィラソロ制約を暗黙的にモデル化していることを示す。
論文 参考訳(メタデータ) (2024-08-27T09:44:01Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - The Convolution Exponential and Generalized Sylvester Flows [82.18442368078804]
本稿では,線形変換の指数関数を取り入れ,線形フローを構築する新しい手法を提案する。
重要な洞察として、指数関数は暗黙的に計算できるため、畳み込み層を使用することができる。
畳み込み指数はCIFAR10上の生成フローにおいて他の線形変換よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-02T19:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。