論文の概要: Weight-sparse transformers have interpretable circuits
- arxiv url: http://arxiv.org/abs/2511.13653v1
- Date: Mon, 17 Nov 2025 18:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.658883
- Title: Weight-sparse transformers have interpretable circuits
- Title(参考訳): ウェイトスパース変圧器は解釈可能な回路を有する
- Authors: Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing,
- Abstract要約: 重みのほとんどをゼロに制約することで、より理解可能な回路を持つようにモデルを訓練する。
いくつかの手作り作業の根底にあるきめ細かい回路を復元する。
我々の研究は、前例のないレベルの人間の理解力を達成する回路を生み出している。
- 参考スコア(独自算出の注目度): 4.237686583992518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding human-understandable circuits in language models is a central goal of the field of mechanistic interpretability. We train models to have more understandable circuits by constraining most of their weights to be zeros, so that each neuron only has a few connections. To recover fine-grained circuits underlying each of several hand-crafted tasks, we prune the models to isolate the part responsible for the task. These circuits often contain neurons and residual channels that correspond to natural concepts, with a small number of straightforwardly interpretable connections between them. We study how these models scale and find that making weights sparser trades off capability for interpretability, and scaling model size improves the capability-interpretability frontier. However, scaling sparse models beyond tens of millions of nonzero parameters while preserving interpretability remains a challenge. In addition to training weight-sparse models de novo, we show preliminary results suggesting our method can also be adapted to explain existing dense models. Our work produces circuits that achieve an unprecedented level of human understandability and validates them with considerable rigor.
- Abstract(参考訳): 言語モデルにおける人間の理解可能な回路を見つけることは、機械的解釈可能性の分野の中心的な目標である。
我々は、重みのほとんどをゼロに制限することでより理解可能な回路を持つようにモデルを訓練し、各ニューロンはいくつかの接続しか持たないようにした。
いくつかの手作り作業の根底にあるきめ細かい回路を復元するために,その作業に責任のある部分を分離するモデルを試作する。
これらの回路は、しばしば自然概念に対応する神経細胞と残留チャネルを含んでおり、それらの間の直接的に解釈可能な接続は少数である。
これらのモデルがどのようにスケールするかを調べ、重み付けによって解釈可能性のトレードオフが生じ、スケールモデルのサイズがキャパシティ-解釈可能性のフロンティアを改善することを確かめる。
しかし、解釈可能性を維持しながら、スパースモデルを数千万の非ゼロパラメータを超えてスケールすることは依然として課題である。
デ・ノボの重量スパースモデルのトレーニングに加えて,本手法が既存の高密度モデルにも適用可能であることを示す予備的な結果を示す。
我々の研究は、前例のないレベルの人間の理解性を達成し、それらをかなりの厳密さで検証する回路を生み出している。
関連論文リスト
- Language Model Circuits Are Sparse in the Neuron Basis [50.460651620833055]
その結果, textbfMLP ニューロンは SAE と同様の機能的基盤であることがわかった。
この作業は、追加のトレーニングコストなしで言語モデルの自動解釈可能性を向上させる。
論文 参考訳(メタデータ) (2026-01-30T05:41:19Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - Learning Transferable Friction Models and LuGre Identification via Physics Informed Neural Networks [4.432363122731454]
物理インフォームド摩擦モデルと学習可能なコンポーネントを統合するための摩擦推定フレームワークを提案する。
われわれのアプローチは物理的な一貫性を強制するが、現実の複雑さに適応する柔軟性は維持する。
我々のアプローチは、学習したモデルを訓練されていないシステムに転送できるようにする。
論文 参考訳(メタデータ) (2025-04-16T19:15:48Z) - Studying Cross-cluster Modularity in Neural Networks [45.8172254436063]
クラスタビリティの尺度を定義し,事前学習したモデルが高度に集積されたクラスタを形成することを示す。
次に、非相互作用クラスタの形成を促進する"クラスタビリティ損失"関数を使用して、モデルをよりモジュール化するようにトレーニングします。
トレーニング済みのクラスタモデルでは,タスクの専門化は行わず,より小さな回路を形成する。
論文 参考訳(メタデータ) (2025-02-04T16:44:38Z) - Spin glass model of in-context learning [2.285821277711785]
線形アテンションを持つ変圧器について検討し、この構造を実数値スピンを持つスピンガラスモデルにマッピングする。
我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。
提案した解析的抽出可能なモデルでは,大言語モデルの多くの興味をそそる性質をどう解釈するかを考える上で,有望な道筋が提供される。
論文 参考訳(メタデータ) (2024-08-05T07:54:01Z) - Are Linear Regression Models White Box and Interpretable? [0.0]
説明可能な人工知能(XAI)は、モデルを理解し解釈するために機械学習モデルに適用または組み込んだ一連のツールとアルゴリズムである。
線形回帰を含む単純なモデルは実装が容易であり、計算の複雑さが小さく、出力を視覚化するのも容易である。
論文 参考訳(メタデータ) (2024-07-16T21:05:51Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Learning-based adaption of robotic friction models [50.72489248401199]
我々は、可能な限り少ないデータを用いて、既存の摩擦モデルを新しいダイナミクスに適用するための新しいアプローチを導入する。
本手法はトレーニング中に外部負荷を伴うデータに依存しないため,外部トルクセンサは不要である。
論文 参考訳(メタデータ) (2023-10-25T14:50:15Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。