論文の概要: Patterning: The Dual of Interpretability
- arxiv url: http://arxiv.org/abs/2601.13548v1
- Date: Tue, 20 Jan 2026 03:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.134859
- Title: Patterning: The Dual of Interpretability
- Title(参考訳): パターン: 解釈可能性の二重性
- Authors: George Wang, Daniel Murfet,
- Abstract要約: パターン化は,各解の局所学習係数をターゲットとして,モデルが学習するアルゴリズムを選択することができることを示す。
結果は、内部構造を読むのに使用されるのと同じ数学的枠組みが、それを記述するために逆転可能であることを証明している。
- 参考スコア(独自算出の注目度): 2.3443925855637073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to understand how neural networks generalize beyond their training data by reverse-engineering their internal structures. We introduce patterning as the dual problem: given a desired form of generalization, determine what training data produces it. Our approach is based on susceptibilities, which measure how posterior expectation values of observables respond to infinitesimal shifts in the data distribution. Inverting this linear response relationship yields the data intervention that steers the model toward a target internal configuration. We demonstrate patterning in a small language model, showing that re-weighting training data along principal susceptibility directions can accelerate or delay the formation of structure, such as the induction circuit. In a synthetic parentheses balancing task where multiple algorithms achieve perfect training accuracy, we show that patterning can select which algorithm the model learns by targeting the local learning coefficient of each solution. These results establish that the same mathematical framework used to read internal structure can be inverted to write it.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークが内部構造をリバースエンジニアリングすることによって、トレーニングデータを超えて一般化する方法を理解することを目的としている。
パターン化を2つの問題として紹介する: 所望の一般化形式が与えられた場合、そのデータを生成するトレーニングデータを決定する。
本手法は,観測対象の後方予測値がデータ分布の無限小変化にどのように反応するかを計測する,知覚可能性に基づく。
この線形応答関係を逆転すると、ターゲットの内部構成に向かってモデルを操縦するデータ介入が発生する。
小言語モデルでパターン化を実演し、主受容方向に沿った再重み付けトレーニングデータが誘導回路などの構造の形成を加速または遅らせることを示した。
複数のアルゴリズムが完璧なトレーニング精度を達成する合成ペアレンスバランスタスクにおいて、各解の局所学習係数をターゲットとして、モデルが学習するアルゴリズムを選択することができることを示す。
これらの結果は、内部構造を読むのに使用されるのと同じ数学的枠組みを逆に書くことができることを証明している。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Learning where to learn: Training data distribution optimization for scientific machine learning [4.726397480637032]
科学的機械学習では、モデルは常にパラメータ値や境界条件が訓練で使用されるものから遠く離れている。
本稿では,平均予測誤差を最小限に抑えるトレーニングデータ分布を設計する学習と学習の課題について検討する。
論文 参考訳(メタデータ) (2025-05-27T18:00:58Z) - On Linearizing Structured Data in Encoder-Decoder Language Models: Insights from Text-to-SQL [8.57550491437633]
本研究では,エンコーダ-デコーダ言語モデル,特にT5における構造化データの線形処理について検討する。
この結果から,スキーマリンクや構文予測など,人間設計プロセスの模倣が可能であることが判明した。
また、構造ノードエンコーディングのエゴ中心の性質を含む、モデルの内部メカニズムに関する洞察を明らかにした。
論文 参考訳(メタデータ) (2024-04-03T01:16:20Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z) - Embodied Self-supervised Learning by Coordinated Sampling and Training [14.107020105091662]
本稿では, 逆問題に対して, 対応する物理フォワードプロセスを用いて, 自己教師型アプローチを提案する。
提案手法は、反復的なサンプリングとトレーニングによって推論ネットワークを学習するために、分析バイシンセシス方式で動作する。
音声から調音情報を推測するために,音響-調音インバージョン問題に対処することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-20T14:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。