論文の概要: Constrained belief updates explain geometric structures in transformer representations
- arxiv url: http://arxiv.org/abs/2502.01954v1
- Date: Tue, 04 Feb 2025 03:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:41.173882
- Title: Constrained belief updates explain geometric structures in transformer representations
- Title(参考訳): 制約付き信念更新は変圧器表現における幾何学的構造を説明する
- Authors: Mateusz Piotrowski, Paul M. Riechers, Daniel Filan, Adam S. Shai,
- Abstract要約: 我々は、最適予測のモデル非依存理論と機械論的解釈可能性を統合し、隠れマルコフモデルのトラクタブルファミリーで訓練されたトランスフォーマーを解析する。
注目ヘッドは,確率単純度を自然に解釈したアルゴリズムを実行し,特異な幾何学的構造を持つ表現を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: What computational structures emerge in transformers trained on next-token prediction? In this work, we provide evidence that transformers implement constrained Bayesian belief updating -- a parallelized version of partial Bayesian inference shaped by architectural constraints. To do this, we integrate the model-agnostic theory of optimal prediction with mechanistic interpretability to analyze transformers trained on a tractable family of hidden Markov models that generate rich geometric patterns in neural activations. We find that attention heads carry out an algorithm with a natural interpretation in the probability simplex, and create representations with distinctive geometric structure. We show how both the algorithmic behavior and the underlying geometry of these representations can be theoretically predicted in detail -- including the attention pattern, OV-vectors, and embedding vectors -- by modifying the equations for optimal future token predictions to account for the architectural constraints of attention. Our approach provides a principled lens on how gradient descent resolves the tension between optimal prediction and architectural design.
- Abstract(参考訳): 次世代予測で訓練された変圧器にどのような計算構造が現れるか?
この研究は、変換器が制約付きベイズ的信念更新(アーキテクチャ上の制約によって形成された部分ベイズ的推論の並列化バージョン)を実装するという証拠を提供する。
これを実現するために、最適予測のモデル非依存理論と機械論的解釈可能性を統合し、ニューラルアクティベーションにおけるリッチな幾何学的パターンを生成する隠蔽マルコフモデルの抽出可能なファミリで訓練されたトランスフォーマーを解析する。
注目ヘッドは, 確率単純度を自然な解釈で表現し, 特異な幾何学的構造を持つ表現を生成する。
これらの表現のアルゴリズム的挙動と基礎となる幾何学の両方が、注意パターン、OVベクトル、埋め込みベクトルを含む理論的にどのように予測できるかを示す。
我々のアプローチは、最適予測とアーキテクチャ設計の間の緊張をいかに緩和するかについて、原則化されたレンズを提供する。
関連論文リスト
- Random Sparse Lifts: Construction, Analysis and Convergence of finite sparse networks [17.487761710665968]
本稿では,パラメータの数が増えると,勾配流による学習が任意に低損失に達するような,ニューラルネットワークの大規模クラスを定義する枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T12:52:00Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Transformers represent belief state geometry in their residual stream [40.803656512527645]
本稿では,この構造が,データ生成過程の隠蔽状態を更新する信念のメタ力学によって与えられることを示す。
我々の研究は、トレーニングデータの構造とトランス内のアクティベーションの幾何学的構造を結びつける一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-05-24T21:14:10Z) - A Theory of Topological Derivatives for Inverse Rendering of Geometry [87.49881303178061]
我々は、位相微分を用いて離散的な位相変化を可能にする微分可能な曲面進化の理論的枠組みを導入する。
2次元の閉曲線と3次元の曲面を最適化して提案理論を検証し、現在の手法の限界について考察する。
論文 参考訳(メタデータ) (2023-08-19T00:55:55Z) - Approximation Rate of the Transformer Architecture for Sequence Modeling [18.166959969957315]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文 参考訳(メタデータ) (2023-05-29T10:56:36Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Geometric Methods for Sampling, Optimisation, Inference and Adaptive
Agents [102.42623636238399]
我々は,サンプリング,最適化,推論,適応的意思決定といった問題に根ざした基本的な幾何学的構造を同定する。
これらの問題を効率的に解くためにこれらの幾何学的構造を利用するアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-03-20T16:23:17Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - A General Framework for Consistent Structured Prediction with Implicit
Loss Embeddings [113.15416137912399]
構造化予測のための理論的・アルゴリズム的な枠組みを提案し,解析する。
問題に対して適切な幾何を暗黙的に定義する、損失関数の大規模なクラスについて検討する。
出力空間を無限の濃度で扱うとき、推定子の適切な暗黙の定式化が重要であることが示される。
論文 参考訳(メタデータ) (2020-02-13T10:30:04Z) - Understanding Graph Neural Networks with Generalized Geometric
Scattering Transforms [67.88675386638043]
散乱変換は、畳み込みニューラルネットワークのモデルとして機能する多層ウェーブレットベースのディープラーニングアーキテクチャである。
非対称ウェーブレットの非常に一般的なクラスに基づくグラフに対して、窓付きおよび非窓付き幾何散乱変換を導入する。
これらの非対称グラフ散乱変換は、対称グラフ散乱変換と多くの理論的保証を持つことを示す。
論文 参考訳(メタデータ) (2019-11-14T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。