論文の概要: Learning a Generative Meta-Model of LLM Activations
- arxiv url: http://arxiv.org/abs/2602.06964v1
- Date: Fri, 06 Feb 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.545299
- Title: Learning a Generative Meta-Model of LLM Activations
- Title(参考訳): LLMアクティベーションの生成メタモデル学習
- Authors: Grace Luo, Jiahai Feng, Trevor Darrell, Alec Radford, Jacob Steinhardt,
- Abstract要約: ネットワークの内部状態の分布を学習する"メタモデル"を作成します。
ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
- 参考スコア(独自算出の注目度): 75.30161960337892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for analyzing neural network activations, such as PCA and sparse autoencoders, rely on strong structural assumptions. Generative models offer an alternative: they can uncover structure without such assumptions and act as priors that improve intervention fidelity. We explore this direction by training diffusion models on one billion residual stream activations, creating "meta-models" that learn the distribution of a network's internal states. We find that diffusion loss decreases smoothly with compute and reliably predicts downstream utility. In particular, applying the meta-model's learned prior to steering interventions improves fluency, with larger gains as loss decreases. Moreover, the meta-model's neurons increasingly isolate concepts into individual units, with sparse probing scores that scale as loss decreases. These results suggest generative meta-models offer a scalable path toward interpretability without restrictive structural assumptions. Project page: https://generative-latent-prior.github.io.
- Abstract(参考訳): PCAやスパースオートエンコーダといった、ニューラルネットワークの活性化を分析するための既存のアプローチは、強い構造的仮定に依存している。
生成モデルは、そのような仮定なしで構造を発見でき、介入の忠実性を改善する事前として振る舞うことができる。
ネットワークの内部状態の分布を学習する「メタモデル」を作成するため、10億の残ストリームアクティベーション上で拡散モデルをトレーニングすることで、この方向を探求する。
拡散損失は計算によってスムーズに減少し、下流ユーティリティーを確実に予測する。
特に、ステアリング介入に先立って学んだメタモデルの適用は、損失が減少するにつれて、フレンシを向上させる。
さらに、メタモデルのニューロンは、個々の単位に概念を分離する傾向にあり、損失が減少するにつれてスケールするスパース探索スコアが増加する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
プロジェクトページ: https://generative-latent-prior.github.io
関連論文リスト
- Toward Reliable Machine Unlearning: Theory, Algorithms, and Evaluation [1.7767466724342065]
本稿では,SOTA MIAスコアに基づく画像分類の最先端手法を超越したAdrial Machine UNlearning(AMUN)を提案する。
既存の手法は、最寄りの会員推定攻撃(MIA-NN)を導入して、再訓練されたモデルの動作を再現できないことを示す。
そこで我々は,スクラッチから再学習したモデルが生成する残りのクラスに対する分布を,クラス入力に対して近似することで,このリークを緩和する微調整対象を提案する。
論文 参考訳(メタデータ) (2025-12-07T20:57:25Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Variational Density Propagation Continual Learning [0.0]
現実世界にデプロイされるディープニューラルネットワーク(DNN)は、定期的にオフ・オブ・ディストリビューション(OoD)データの対象となっている。
本稿では,ベンチマーク連続学習データセットによってモデル化されたデータ分散ドリフトに適応するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-22T21:51:39Z) - Mechanistic Mode Connectivity [11.772935238948662]
モード接続のレンズによるニューラルネットワークの損失景観について検討する。
低損失の単純な経路を通じて予測を結び付けるために、異なるメカニズムに依存しているミニマライザは存在するか?
論文 参考訳(メタデータ) (2022-11-15T18:58:28Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - GAIT-prop: A biologically plausible learning rule derived from
backpropagation of error [9.948484577581796]
バックプロパゲーションとターゲット伝搬の修正形態の正確な対応を示す。
一連のコンピュータビジョン実験において,バックプロパゲーションとGAIT-propのほぼ同一性能を示す。
論文 参考訳(メタデータ) (2020-06-11T13:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。