論文の概要: Sparse Semantic Dimension as a Generalization Certificate for LLMs
- arxiv url: http://arxiv.org/abs/2602.11388v1
- Date: Wed, 11 Feb 2026 21:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.548696
- Title: Sparse Semantic Dimension as a Generalization Certificate for LLMs
- Title(参考訳): LLMの一般化証明書としてのスパース意味次元
- Authors: Dibyanayan Bandyopadhyay, Asif Ekbal,
- Abstract要約: Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
- 参考スコア(独自算出の注目度): 53.681678236115836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard statistical learning theory predicts that Large Language Models (LLMs) should overfit because their parameter counts vastly exceed the number of training tokens. Yet, in practice, they generalize robustly. We propose that the effective capacity controlling generalization lies in the geometry of the model's internal representations: while the parameter space is high-dimensional, the activation states lie on a low-dimensional, sparse manifold. To formalize this, we introduce the Sparse Semantic Dimension (SSD), a complexity measure derived from the active feature vocabulary of a Sparse Autoencoder (SAE) trained on the model's layers. Treating the LLM and SAE as frozen oracles, we utilize this framework to attribute the model's generalization capabilities to the sparsity of the dictionary rather than the total parameter count. Empirically, we validate this framework on GPT-2 Small and Gemma-2B, demonstrating that our bound provides non-vacuous certificates at realistic sample sizes. Crucially, we uncover a counter-intuitive "feature sharpness" scaling law: despite being an order of magnitude larger, Gemma-2B requires significantly fewer calibration samples to identify its active manifold compared to GPT-2, suggesting that larger models learn more compressible, distinct semantic structures. Finally, we show that this framework functions as a reliable safety monitor: out-of-distribution inputs trigger a measurable "feature explosion" (a sharp spike in active features), effectively signaling epistemic uncertainty through learned feature violation. Code is available at: https://github.com/newcodevelop/sparse-semantic-dimension.
- Abstract(参考訳): 標準統計学習理論は、パラメータがトレーニングトークンの数を大幅に上回るため、Large Language Models (LLM) が過度に適合すべきであると予測する。
しかし実際には、彼らはしっかりと一般化している。
パラメータ空間は高次元であるが、活性化状態は低次元のスパース多様体上に存在する。
モデル層上で訓練されたスパースオートエンコーダ(SAE)のアクティブな特徴語彙から導かれる複雑性尺度であるスパースセマンティック次元(SSD)を導入する。
本研究では, LLM と SAE を凍結オラクルとして扱うことで, モデルの一般化能力を, 総パラメータ数ではなく辞書の空間性に比例する。
GPT-2 Small および Gemma-2B 上で,本フレームワークを実証的に検証し,現実的なサンプルサイズで非空き証明書を提供することを実証した。
Gemma-2Bは、桁違いに大きいが、GPT-2よりも活性多様体を識別するために、キャリブレーションサンプルを著しく少なくし、より大きなモデルはより圧縮性があり、異なるセマンティック構造を学ぶことを示唆している。
最後に、このフレームワークは信頼性の高い安全モニターとして機能し、アウト・オブ・ディストリビューション・インプットは測定可能な「機能爆発」(アクティブな特徴の急激なスパイク)を誘発し、学習された特徴違反を通じて疫学的不確実性を示す。
コードは、https://github.com/newcodevelop/sparse-semantic-dimension.comで入手できる。
関連論文リスト
- Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry [41.26991813225211]
曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
本稿では,セマンティック・キャパシティ非対称性仮説を提案する。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
論文 参考訳(メタデータ) (2026-01-30T05:34:24Z) - Binary Autoencoder for Mechanistic Interpretability of Large Language Models [8.725176890854065]
隠れアクティベーションのミニバッチに最小エントロピーを強制する新しいバイナリオートエンコーダを提案する。
効率的なエントロピー計算のために、ステップ関数を介して隠れたアクティベーションを1ビットに識別する。
我々は、大規模言語モデルの推論力学を経験的に評価し、活用する。
論文 参考訳(メタデータ) (2025-09-25T10:48:48Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Semantic Convergence: Investigating Shared Representations Across Scaled LLMs [4.172347145536457]
大きな言語モデルは、サイズの違いにもかかわらず、世界全体を広く類似した解釈可能な特徴に彫り込み、クロスモデル解釈の基盤として普遍性を補強する。
予備実験では、単一トークンからマルチトークン部分空間への解析を拡張し、意味論的に類似した部分空間が言語モデルと同様に相互作用することを示す。
論文 参考訳(メタデータ) (2025-07-21T07:09:32Z) - Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning [30.590869749117815]
Francaは、最初の完全なオープンソース(データ、コード、重み付け)ビジョン基盤モデルである。
多くの場合、最先端のプロプライエタリモデルのパフォーマンスを上回る。
私たちのコントリビューションは、透明で高性能なビジョンモデルのための新しい標準を確立します。
論文 参考訳(メタデータ) (2025-07-18T17:59:55Z) - Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
近似的特徴アクティベーション(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実演する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。
ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。
まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。
第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。
本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。
位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文 参考訳(メタデータ) (2022-06-22T07:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。