論文の概要: From Directions to Regions: Decomposing Activations in Language Models via Local Geometry
- arxiv url: http://arxiv.org/abs/2602.02464v1
- Date: Mon, 02 Feb 2026 18:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.376452
- Title: From Directions to Regions: Decomposing Activations in Language Models via Local Geometry
- Title(参考訳): 方向から地域へ:局所幾何学による言語モデルにおけるアクティベーションの分解
- Authors: Or Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva,
- Abstract要約: 活性化空間をモデル化するスケーラブルで教師なしの代替手段として、MFA(Mixture of Factor Analyzers)を利用する。
MFAは、活性化空間における領域のセントロイドと、セントロイドからの局所的な変化の2つの構成幾何学的対象に活性化を分解する。
Llama-3.1-8B と Gemma-2-2B の大規模 MFA を訓練し、活性化空間における複雑な非線形構造を捉えることを示す。
- 参考スコア(独自算出の注目度): 37.50120706345745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.
- Abstract(参考訳): 言語モデルにおけるアクティベーション分解法は、アクティベーション空間において概念がどのように実現されるかという幾何学的仮定と密接に結びついている。
既存のアプローチは、非線形あるいは多次元構造の概念を見越した線形分離性を暗黙的に仮定して、個々の大域方向を探索する。
本研究では,MFA(Mixture of Factor Analyzers)を,局所共分散構造を持つガウス領域の集合として活性化空間をモデル化する,スケーラブルで教師なしの代替手段として活用する。
MFAは、活性化空間における領域のセントロイドと、セントロイドからの局所的な変化の2つの構成幾何学的対象に活性化を分解する。
Llama-3.1-8B と Gemma-2-2B の大規模 MFA を訓練し、活性化空間における複雑な非線形構造を捉えることを示した。
さらに、ローカライゼーションとステアリングベンチマークの評価により、MFAは教師なしベースラインよりも優れ、教師付きローカライゼーション手法と競合し、スパースオートエンコーダよりも強力なステアリング性能を達成することが示されている。
本研究は, 局所幾何学を部分空間で表現し, 拡張性のある概念探索とモデル制御のための将来性のある分析単位として位置づけ, 孤立した方向が捉えられない複雑な構造を考慮に入れた。
関連論文リスト
- TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - Mixture-of-Experts as Soft Clustering: A Dual Jacobian-PCA Spectral Geometry Perspective [0.5414847001704249]
Mixture-of-Experts (MoE)アーキテクチャは、一般的に効率性と条件計算によって動機付けられている。
幾何レンズを用いてMoEを解析し、表現空間のソフトパーティショニングの形でルーティングを解釈し、重なり合う局所チャートに変換する。
論文 参考訳(メタデータ) (2026-01-09T23:07:14Z) - Visualizing LLM Latent Space Geometry Through Dimensionality Reduction [0.0]
我々は,トランスフォーマーに基づく言語モデルにおける潜在状態空間を次元的還元により抽出し,プロセスし,可視化する。
我々はGPT-2およびLLaMaモデルの実験を行い、潜在空間における興味深い幾何学的パターンを明らかにする。
論文 参考訳(メタデータ) (2025-11-26T17:11:39Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Scalable Context-Preserving Model-Aware Deep Clustering for Hyperspectral Images [51.95768218975529]
ハイパースペクトル画像(HSI)の教師なし解析にサブスペースクラスタリングが広く採用されている。
近年のモデル対応深層空間クラスタリング手法では、O(n2)の複雑性を持つ自己表現行列の計算とスペクトルクラスタリングを含む2段階のフレームワークを用いることが多い。
本稿では,HSIクラスタリングを効率的に行うために,局所構造と非局所構造を協調的にキャプチャする,ベース表現に基づく拡張性のあるコンテキスト保存深層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T16:43:09Z) - HierRelTriple: Guiding Indoor Layout Generation with Hierarchical Relationship Triplet Losses [52.70183252341687]
本稿では,空間的関係学習に着目した階層型三重項に基づく屋内関係学習手法HierRelTripleを提案する。
階層型リレーショナル三重項モデリングフレームワークであるHierRelTripleを導入する。
非条件レイアウト合成、フロアプラン条件付きレイアウト生成、シーン再構成の実験により、HierRelは空間関係のメトリクスを15%以上改善することを示した。
論文 参考訳(メタデータ) (2025-03-26T07:31:52Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - Analyzing the Latent Space of GAN through Local Dimension Estimation [4.688163910878411]
高忠実度画像合成におけるスタイルベースGAN(StyleGAN)は、それらの潜在空間の意味的特性を理解するために研究の動機となっている。
事前学習したGANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。
提案した計量はDistortionと呼ばれ、学習された潜在空間上の内在空間の不整合を測定する。
論文 参考訳(メタデータ) (2022-05-26T06:36:06Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。