論文の概要: The Bayesian Geometry of Transformer Attention
- arxiv url: http://arxiv.org/abs/2512.22471v1
- Date: Sat, 27 Dec 2025 05:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.072607
- Title: The Bayesian Geometry of Transformer Attention
- Title(参考訳): 変圧器注意のベイズ幾何学
- Authors: Naman Aggarwal, Siddhartha R. Dalal, Vishal Misra,
- Abstract要約: 我々は,真の後部が閉じた形で認識され,記憶化が不可能な制御環境を構築する。
小さな変圧器はmbox$10-3$--10-4$ビットの精度でベイズの後部を再現するが、容量整合幾何は桁違いに失敗する。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers often appear to perform Bayesian reasoning in context, but verifying this rigorously has been impossible: natural data lack analytic posteriors, and large models conflate reasoning with memorization. We address this by constructing \emph{Bayesian wind tunnels} -- controlled environments where the true posterior is known in closed form and memorization is provably impossible. In these settings, small transformers reproduce Bayesian posteriors with \mbox{$10^{-3}$--$10^{-4}$} bit accuracy, while capacity-matched MLPs fail by orders of magnitude, establishing a clear architectural separation. Across two tasks -- bijection elimination and Hidden Markov Model (HMM) state tracking -- we find that transformers implement Bayesian inference through a consistent geometric mechanism: residual streams serve as the belief substrate, feed-forward networks perform the posterior update, and attention provides content-addressable routing. Geometric diagnostics reveal orthogonal key bases, progressive query--key alignment, and a low-dimensional value manifold parameterized by posterior entropy. During training this manifold unfurls while attention patterns remain stable, a \emph{frame--precision dissociation} predicted by recent gradient analyses. Taken together, these results demonstrate that hierarchical attention realizes Bayesian inference by geometric design, explaining both the necessity of attention and the failure of flat architectures. Bayesian wind tunnels provide a foundation for mechanistically connecting small, verifiable systems to reasoning phenomena observed in large language models.
- Abstract(参考訳): トランスフォーマーはしばしば文脈においてベイズ的推論を行うように見えるが、これを厳密に検証することは不可能である。
我々は、真の後部が閉じた形で知られ、記憶化が証明不可能な制御された環境である 'emph{Bayesian Wind Tunnels} を構築することで、この問題に対処する。
これらの設定では、小さなトランスフォーマーは、Bayes の後方を \mbox{$10^{-3}$-$10^{-4}$} ビットの精度で再現するが、キャパシティマッチング MLP は桁違いに失敗し、明確なアーキテクチャ分離を確立する。
バイジェクション除去とHMM(Hidden Markov Model)状態追跡という2つのタスクにわたって、トランスフォーマーが一貫した幾何学的メカニズムによってベイズ推論を実装していることがわかりました。
幾何学的診断では、直交キーベース、プログレッシブクエリキーアライメント、および後エントロピーでパラメータ化された低次元値多様体が明らかにされる。
訓練中、この多様体は、注意パターンが安定でありながら解き放つが、最近の勾配解析によって予測される 'emph{frame-precision dissociation' が成り立つ。
これらの結果は、階層的な注意が幾何学的設計によってベイズ的推論を実現し、注意の必要性と平坦な建築の失敗の両方を説明できることを示した。
ベイズ風洞は、大きな言語モデルで観測された現象を推論するために、小さな検証可能なシステムを機械的に接続する基盤を提供する。
関連論文リスト
- Reconstructing Multi-Scale Physical Fields from Extremely Sparse Measurements with an Autoencoder-Diffusion Cascade [38.28865883904372]
Cascaded Sensing (Cas-Sensing)は、自動エンコーダ拡散カスケードを統合する階層的な再構築フレームワークである。
マスクカスケード戦略で訓練された条件拡散モデルにより,大規模構造物に条件付された微細な詳細情報を生成する。
シミュレーションと実世界のデータセットの両方の実験により、Cas-Sensingは様々なセンサー構成と幾何学的境界をまたいでうまく一般化することを示した。
論文 参考訳(メタデータ) (2025-12-01T11:46:14Z) - Manifold Percolation: from generative model to Reinforce learning [0.26905021039717986]
生成的モデリングは通常、学習マッピング規則としてフレーム化されるが、これらの規則にアクセスできない観察者の視点からすると、そのタスクは確率分布から幾何学的支援を引き離すことになる。
本研究は, サンプリングプロセスが, 高次元密度推定を支持面上の幾何カウント問題に効果的に投射するので, 連続体パーコレーションは, この支援解析に一意に適していることを示す。
論文 参考訳(メタデータ) (2025-11-25T17:12:42Z) - VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - Cycle-Consistent Helmholtz Machine: Goal-Seeded Simulation via Inverted Inference [5.234742752529437]
emphCycle-Consistent Helmholtz Machine (C$2$HM)を紹介する。
C$2$HM reframes inference as a emphgoal-seeded, emphasymmetric process grounded in structureed internal priors。
古典的償却推論に代わる生物学的にインスパイアされた代替手段を提供することにより、$C2$HMは生成モデリングを意図的シミュレーションとして再考する。
論文 参考訳(メタデータ) (2025-07-03T17:24:27Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Mapping the Edge of Chaos: Fractal-Like Boundaries in The Trainability of Decoder-Only Transformer Models [0.0]
ミニチュアニューラルネットワークによる最近の証拠は、これらの結果を分離する境界がフラクタル特性を示すことを示唆している。
本研究は、より一貫した収束尺度を用いて、中規模デコーダのみの変圧器アーキテクチャに拡張する。
その結果、訓練性フロンティアは単純なしきい値ではなく、複数のスケールで自己相似で一見ランダムな構造を形成することがわかった。
論文 参考訳(メタデータ) (2025-01-08T05:24:11Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。