論文の概要: Studying Small Language Models with Susceptibilities
- arxiv url: http://arxiv.org/abs/2504.18274v1
- Date: Fri, 25 Apr 2025 11:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.757227
- Title: Studying Small Language Models with Susceptibilities
- Title(参考訳): 感受性を持つ小言語モデルの研究
- Authors: Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet,
- Abstract要約: 本研究では,ニューラルネットワークをベイズ統計力学系として扱う解釈可能性の枠組みを開発する。
データ分散の小さな制御された摂動は、ネットワークの選択されたコンポーネントに局所化される観測可能の後方期待の1次変化を誘導する。
結果として生じる感受性は、局所的なSGLDサンプルで効率的に推定され、署名された個々のコントリビューションに分解される。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a linear response framework for interpretability that treats a neural network as a Bayesian statistical mechanical system. A small, controlled perturbation of the data distribution, for example shifting the Pile toward GitHub or legal text, induces a first-order change in the posterior expectation of an observable localized on a chosen component of the network. The resulting susceptibility can be estimated efficiently with local SGLD samples and factorizes into signed, per-token contributions that serve as attribution scores. Building a set of perturbations (probes) yields a response matrix whose low-rank structure separates functional modules such as multigram and induction heads in a 3M-parameter transformer. Susceptibilities link local learning coefficients from singular learning theory with linear-response theory, and quantify how local loss landscape geometry deforms under shifts in the data distribution.
- Abstract(参考訳): 本研究では,ニューラルネットワークをベイズ統計力学系として扱う線形応答フレームワークを開発した。
例えば、PileをGitHubや法的テキストに移すことによって、ネットワークの選択したコンポーネントにローカライズされた可観測性への後続期待が一階に変化する。
結果として生じる感受性は、局所的なSGLDサンプルで効率的に推定され、属性スコアとして機能する署名された、トーケン毎のコントリビューションに分解される。
摂動(プローブ)のセットを構築すると、低ランク構造が3Mパラメータ変換器で多グラムや誘導ヘッドなどの関数モジュールを分離する応答行列が得られる。
サセプティビティは、特異学習理論から線形応答理論への局所的な学習係数をリンクし、データ分布のシフトの下で局所的なロスランドスケープがどのように変形するかを定量化する。
関連論文リスト
- Deep learning with missing data [3.829599191332801]
本稿では,既存の計算手法と組み合わせて適用可能なパターン埋め込みニューラルネットワーク(PENN)を提案する。
インプットされたデータに基づいてトレーニングされたニューラルネットワークに加えて、PENNは観察指標のベクトルを第2のニューラルネットワークに渡して、コンパクトな表現を提供する。
出力は第3のニューラルネットワークに結合され、最終的な予測が生成される。
論文 参考訳(メタデータ) (2025-04-21T18:57:36Z) - Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。
本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。
各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文 参考訳(メタデータ) (2023-05-24T10:11:30Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Prequential MDL for Causal Structure Learning with Neural Networks [9.669269791955012]
ベイジアンネットワークの実用的スコアリング関数を導出するために,事前最小記述長の原理が利用できることを示す。
我々は、調整しなければならない事前やその他の正規化子を誘導するスパーシリティに頼ることなく、可塑性および擬似グラフ構造を得る。
本研究は, 適応速度から因果構造を推定する最近の研究と, 分布変化の源泉から観測結果が得られた場合の因果構造との関係について考察する。
論文 参考訳(メタデータ) (2021-07-02T22:35:21Z) - FF-NSL: Feed-Forward Neural-Symbolic Learner [70.978007919101]
本稿では,Feed-Forward Neural-Symbolic Learner (FF-NSL) と呼ばれるニューラルシンボリック学習フレームワークを紹介する。
FF-NSLは、ラベル付き非構造化データから解釈可能な仮説を学習するために、Answer Setセマンティクスに基づく最先端のICPシステムとニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2021-06-24T15:38:34Z) - Locally Sparse Networks for Interpretable Predictions [7.362415721170984]
本稿では,局所的な疎度をサンプル固有のゲーティング機構を用いて学習する,局所スパースニューラルネットワークのトレーニングフレームワークを提案する。
サンプル固有の間隔は、テキスト予測ネットワークで予測され、テキスト予測ネットワークとタンデムでトレーニングされる。
本手法は,1インスタンスあたりの機能が少ないターゲット関数の予測において,最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T15:46:50Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - A simple normative network approximates local non-Hebbian learning in
the cortex [12.940770779756482]
神経科学実験は、皮質ニューロンによる感覚入力の処理は、指示信号によって変調されることを示した。
ここでは、規範的なアプローチを採用し、フィードフォワードデータの投影を導く監督的な入力として、これらの命令信号をモデル化する。
オンラインアルゴリズムは、シナプス学習規則が大脳皮質で観察されるカルシウムプラトー電位依存的な可塑性に類似しているニューラルネットワークによって実装することができる。
論文 参考訳(メタデータ) (2020-10-23T20:49:44Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。