論文の概要: Geometric Scaling of Bayesian Inference in LLMs
- arxiv url: http://arxiv.org/abs/2512.23752v1
- Date: Sat, 27 Dec 2025 05:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.13793
- Title: Geometric Scaling of Bayesian Inference in LLMs
- Title(参考訳): LLMにおけるベイズ推論の幾何学的スケーリング
- Authors: Naman Aggarwal, Siddhartha R. Dalal, Vishal Misra,
- Abstract要約: 近年の研究では、制御された「風洞」設定で訓練された小さな変圧器がベイズ推定を正確に実装できることが示されている。
この幾何学的シグネチャが生産段階の言語モデルに持続するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that small transformers trained in controlled "wind-tunnel'' settings can implement exact Bayesian inference, and that their training dynamics produce a geometric substrate -- low-dimensional value manifolds and progressively orthogonal keys -- that encodes posterior structure. We investigate whether this geometric signature persists in production-grade language models. Across Pythia, Phi-2, Llama-3, and Mistral families, we find that last-layer value representations organize along a single dominant axis whose position strongly correlates with predictive entropy, and that domain-restricted prompts collapse this structure into the same low-dimensional manifolds observed in synthetic settings. To probe the role of this geometry, we perform targeted interventions on the entropy-aligned axis of Pythia-410M during in-context learning. Removing or perturbing this axis selectively disrupts the local uncertainty geometry, whereas matched random-axis interventions leave it intact. However, these single-layer manipulations do not produce proportionally specific degradation in Bayesian-like behavior, indicating that the geometry is a privileged readout of uncertainty rather than a singular computational bottleneck. Taken together, our results show that modern language models preserve the geometric substrate that enables Bayesian inference in wind tunnels, and organize their approximate Bayesian updates along this substrate.
- Abstract(参考訳): 最近の研究は、制御された「風洞」設定で訓練された小さな変圧器が正確なベイズ推定を実装できることを示し、それらの訓練力学は、後部構造をエンコードする幾何学的基質(低次元値多様体と漸進的に直交キー)を生成することを示した。
この幾何学的シグネチャが生産段階の言語モデルに持続するかどうかを検討する。
Pythia, Phi-2, Llama-3, Mistral族では, 位置が予測エントロピーと強く相関する単一の支配軸に沿って最終層値表現が構成され, ドメイン制限プロンプトがこの構造を合成条件で観測された同じ低次元多様体に分解することがわかった。
この幾何学の役割を解明するために,テキスト内学習におけるPythia-410Mのエントロピーアライメント軸に対するターゲット介入を行う。
この軸の除去または摂動は局所的な不確実性幾何を選択的に破壊するが、一致したランダム軸干渉はそれをそのまま残す。
しかし、これらの単層操作はベイズ的な振る舞いを比例的に劣化させるものではなく、幾何学は特異な計算ボトルネックというよりも、特権的な不確実性の読み出しであることを示している。
その結果、現代の言語モデルでは、風洞におけるベイズ推定を可能にする幾何学的基質を保存し、この基板に沿ってベイズ的更新を近似的に整理できることが示唆された。
関連論文リスト
- The Bayesian Geometry of Transformer Attention [0.4779196219827507]
我々は,真の後部が閉じた形で認識され,記憶化が不可能な制御環境を構築する。
小さな変圧器はmbox$10-3$--10-4$ビットの精度でベイズの後部を再現するが、容量整合幾何は桁違いに失敗する。
論文 参考訳(メタデータ) (2025-12-27T05:28:58Z) - Manifold Percolation: from generative model to Reinforce learning [0.26905021039717986]
生成的モデリングは通常、学習マッピング規則としてフレーム化されるが、これらの規則にアクセスできない観察者の視点からすると、そのタスクは確率分布から幾何学的支援を引き離すことになる。
本研究は, サンプリングプロセスが, 高次元密度推定を支持面上の幾何カウント問題に効果的に投射するので, 連続体パーコレーションは, この支援解析に一意に適していることを示す。
論文 参考訳(メタデータ) (2025-11-25T17:12:42Z) - VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - Geometry-Aware Backdoor Attacks: Leveraging Curvature in Hyperbolic Embeddings [3.8806403512213787]
非ユークリッド基底モデルは双曲幾何学のような曲線空間に表現を配置する。
入力空間の小さな変化は標準の入力空間検出器には微妙に見えるが、モデルの表現空間において不均等に大きな変化をもたらす。
本稿では,幾何適応型トリガを提案し,タスクやアーキテクチャにわたって評価する。
論文 参考訳(メタデータ) (2025-10-07T19:24:43Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。