論文の概要: The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors
- arxiv url: http://arxiv.org/abs/2602.02315v1
- Date: Mon, 02 Feb 2026 16:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.304804
- Title: The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors
- Title(参考訳): 信念の形状:言語モデルの後部の表現多様体に沿った幾何学・ダイナミクス・介入
- Authors: Raphaël Sarfati, Eric Bigelow, Daniel Wurgaft, Jack Merullo, Atticus Geiger, Owen Lewis, Tom McGrath, Ekdeep Singh Lubana,
- Abstract要約: 大規模言語モデル(LLM)は、迅速な条件付き信念(回答とクレームに対する後見者)を表す。
Llama-3.2はそのパラメータを暗黙的に推論することで、正規分布からサンプルを生成する制御条件について検討する。
これらのパラメータに対する曲線 "ビリーフ多様体" の表現は、十分な文脈内学習によって形成される。
- 参考スコア(独自算出の注目度): 24.477029700560113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) represent prompt-conditioned beliefs (posteriors over answers and claims), but we lack a mechanistic account of how these beliefs are encoded in representation space, how they update with new evidence, and how interventions reshape them. We study a controlled setting in which Llama-3.2 generates samples from a normal distribution by implicitly inferring its parameters (mean and standard deviation) given only samples from the distribution in context. We find representations of curved "belief manifolds" for these parameters form with sufficient in-context learning and study how the model adapts when the distribution suddenly changes. While standard linear steering often pushes the model off-manifold and induces coupled, out-of-distribution shifts, geometry and field-aware steering better preserves the intended belief family. Our work demonstrates an example of linear field probing (LFP) as a simple approach to tile the data manifold and make interventions that respect the underlying geometry. We conclude that rich structure emerges naturally in LLMs and that purely linear concept representations are often an inadequate abstraction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、迅速な条件付き信念(回答とクレームに対する追従者)を表現しているが、これらの信念がどのように表現空間にエンコードされているか、どのように新しいエビデンスで更新されるか、介入がどのようにそれらを再形成するかという機械的な説明は欠如している。
我々はLlama-3.2が正規分布からサンプルを生成する制御条件について,その分布からのみ与えられたパラメータ(平均偏差と標準偏差)を暗黙的に推定することによって検討した。
これらのパラメータに対する曲線 "ビリーフ多様体" の表現は、十分な文脈内学習によって形成され、分布が突然変化するときにモデルがどのように適応するかを研究する。
標準的な線形ステアリングはしばしばモデルをマニフォールドから押し出して誘導するが、分布外シフト、幾何学、およびフィールド対応ステアリングは意図された信念の族をよりよく保存する。
我々の研究は、データ多様体をタイル化し、基礎となる幾何学を尊重する介入を行うための単純なアプローチとして、線形場探索(LFP)の例を示す。
我々は、LLMにおいてリッチな構造が自然に出現し、純粋に線形な概念表現は、しばしば不十分な抽象概念である、と結論づける。
関連論文リスト
- Manifold-Aware Perturbations for Constrained Generative Modeling [1.6431177510318926]
等式制約付き生成モデルにおいて、既知の落とし穴と戦うために、計算的に安価で、数学的に正当化され、高度に柔軟な分布修正を開発する。
本研究では,拡散モデルと正規化フローを併用して,データの分散回復と安定したサンプリングを一貫して実現することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:34:33Z) - Causal Manifold Fairness: Enforcing Geometric Invariance in Representation Learning [0.0]
本稿では,因果推論と幾何学的深層学習を橋渡しする新しいフレームワークであるCausal Manifold Fairness(CMF)を紹介する。
デコーダのヤコビアンとヘシアンに制約を課すことにより、CMFは潜在空間の規則が階層群全体にわたって保持されることを保証する。
CMFを合成構造因果モデル (SCMs) で検証し, タスクユーティリティを保ちながら, 敏感な幾何学的歪みを効果的に解消することを示した。
論文 参考訳(メタデータ) (2026-01-06T14:05:22Z) - Calibrating Biased Distribution in VFM-derived Latent Space via Cross-Domain Geometric Consistency [52.52950138164424]
特徴抽出にオフザシェルフ(ビジョン)基礎モデルを利用する場合、特徴分布の幾何学的形状はドメインやデータセット間で顕著な伝達性を示す。
我々は,我々の幾何学的知識誘導分布キャリブレーションフレームワークを,フェデレーション学習とロングテール認識の2つの人気かつ挑戦的な設定で具体化する。
長期学習において、サンプル豊富なカテゴリから移動された幾何学的知識を利用して、サンプル・スカース・テールクラスの真の分布を復元する。
論文 参考訳(メタデータ) (2025-08-19T05:22:59Z) - From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs [3.6485741522018724]
大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
我々は最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真実の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
論文 参考訳(メタデータ) (2025-05-27T22:14:54Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - PAC Generalization via Invariant Representations [41.02828564338047]
有限標本集合における$epsilon$-approximate不変性の概念を考える。
PAC学習にインスパイアされ、有限サンプルのアウト・オブ・ディストリビューション一般化保証を得る。
この結果から, 介入部位が非次境界ノードの一定サイズの部分集合内にある場合に, 周囲次元でスケールしない境界を示す。
論文 参考訳(メタデータ) (2022-05-30T15:50:14Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。