論文の概要: Weight-sparse transformers have interpretable circuits
- arxiv url: http://arxiv.org/abs/2511.13653v1
- Date: Mon, 17 Nov 2025 18:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.658883
- Title: Weight-sparse transformers have interpretable circuits
- Title(参考訳): ウェイトスパース変圧器は解釈可能な回路を有する
- Authors: Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing,
- Abstract要約: 重みのほとんどをゼロに制約することで、より理解可能な回路を持つようにモデルを訓練する。
いくつかの手作り作業の根底にあるきめ細かい回路を復元する。
我々の研究は、前例のないレベルの人間の理解力を達成する回路を生み出している。
- 参考スコア(独自算出の注目度): 4.237686583992518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding human-understandable circuits in language models is a central goal of the field of mechanistic interpretability. We train models to have more understandable circuits by constraining most of their weights to be zeros, so that each neuron only has a few connections. To recover fine-grained circuits underlying each of several hand-crafted tasks, we prune the models to isolate the part responsible for the task. These circuits often contain neurons and residual channels that correspond to natural concepts, with a small number of straightforwardly interpretable connections between them. We study how these models scale and find that making weights sparser trades off capability for interpretability, and scaling model size improves the capability-interpretability frontier. However, scaling sparse models beyond tens of millions of nonzero parameters while preserving interpretability remains a challenge. In addition to training weight-sparse models de novo, we show preliminary results suggesting our method can also be adapted to explain existing dense models. Our work produces circuits that achieve an unprecedented level of human understandability and validates them with considerable rigor.
- Abstract(参考訳): 言語モデルにおける人間の理解可能な回路を見つけることは、機械的解釈可能性の分野の中心的な目標である。
我々は、重みのほとんどをゼロに制限することでより理解可能な回路を持つようにモデルを訓練し、各ニューロンはいくつかの接続しか持たないようにした。
いくつかの手作り作業の根底にあるきめ細かい回路を復元するために,その作業に責任のある部分を分離するモデルを試作する。
これらの回路は、しばしば自然概念に対応する神経細胞と残留チャネルを含んでおり、それらの間の直接的に解釈可能な接続は少数である。
これらのモデルがどのようにスケールするかを調べ、重み付けによって解釈可能性のトレードオフが生じ、スケールモデルのサイズがキャパシティ-解釈可能性のフロンティアを改善することを確かめる。
しかし、解釈可能性を維持しながら、スパースモデルを数千万の非ゼロパラメータを超えてスケールすることは依然として課題である。
デ・ノボの重量スパースモデルのトレーニングに加えて,本手法が既存の高密度モデルにも適用可能であることを示す予備的な結果を示す。
我々の研究は、前例のないレベルの人間の理解性を達成し、それらをかなりの厳密さで検証する回路を生み出している。
関連論文リスト
- Learning Transferable Friction Models and LuGre Identification via Physics Informed Neural Networks [4.432363122731454]
物理インフォームド摩擦モデルと学習可能なコンポーネントを統合するための摩擦推定フレームワークを提案する。
われわれのアプローチは物理的な一貫性を強制するが、現実の複雑さに適応する柔軟性は維持する。
我々のアプローチは、学習したモデルを訓練されていないシステムに転送できるようにする。
論文 参考訳(メタデータ) (2025-04-16T19:15:48Z) - Studying Cross-cluster Modularity in Neural Networks [45.8172254436063]
クラスタビリティの尺度を定義し,事前学習したモデルが高度に集積されたクラスタを形成することを示す。
次に、非相互作用クラスタの形成を促進する"クラスタビリティ損失"関数を使用して、モデルをよりモジュール化するようにトレーニングします。
トレーニング済みのクラスタモデルでは,タスクの専門化は行わず,より小さな回路を形成する。
論文 参考訳(メタデータ) (2025-02-04T16:44:38Z) - Spin glass model of in-context learning [2.285821277711785]
線形アテンションを持つ変圧器について検討し、この構造を実数値スピンを持つスピンガラスモデルにマッピングする。
我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。
提案した解析的抽出可能なモデルでは,大言語モデルの多くの興味をそそる性質をどう解釈するかを考える上で,有望な道筋が提供される。
論文 参考訳(メタデータ) (2024-08-05T07:54:01Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。