論文の概要: Automatically Finding Rule-Based Neurons in OthelloGPT
- arxiv url: http://arxiv.org/abs/2511.00059v1
- Date: Tue, 28 Oct 2025 20:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.549876
- Title: Automatically Finding Rule-Based Neurons in OthelloGPT
- Title(参考訳): OthelloGPTにおけるルールベースニューロンの自動検出
- Authors: Aditya Singh, Zihang Wen, Srujananjali Medicherla, Adam Karvonen, Can Rager,
- Abstract要約: OthelloGPTは、Othelloの有効な動きを予測するために訓練されたトランスフォーマーであり、解釈可能性の研究に理想的なテストベッドを提供する。
ルールベースのゲームロジックを符号化するニューロンを識別するために,決定木に基づく自動アプローチを提案する。
以上の結果から, 5層ニューロンの約半数は, コンパクトで規則に基づく決定木によって正確に記述できることが示唆された。
- 参考スコア(独自算出の注目度): 6.897065306897161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OthelloGPT, a transformer trained to predict valid moves in Othello, provides an ideal testbed for interpretability research. The model is complex enough to exhibit rich computational patterns, yet grounded in rule-based game logic that enables meaningful reverse-engineering. We present an automated approach based on decision trees to identify and interpret MLP neurons that encode rule-based game logic. Our method trains regression decision trees to map board states to neuron activations, then extracts decision paths where neurons are highly active to convert them into human-readable logical forms. These descriptions reveal highly interpretable patterns; for instance, neurons that specifically detect when diagonal moves become legal. Our findings suggest that roughly half of the neurons in layer 5 can be accurately described by compact, rule-based decision trees ($R^2 > 0.7$ for 913 of 2,048 neurons), while the remainder likely participate in more distributed or non-rule-based computations. We verify the causal relevance of patterns identified by our decision trees through targeted interventions. For a specific square, for specific game patterns, we ablate neurons corresponding to those patterns and find an approximately 5-10 fold stronger degradation in the model's ability to predict legal moves along those patterns compared to control patterns. To facilitate future work, we provide a Python tool that maps rule-based game behaviors to their implementing neurons, serving as a resource for researchers to test whether their interpretability methods recover meaningful computational structures.
- Abstract(参考訳): OthelloGPTは、Othelloの有効な動きを予測するために訓練されたトランスフォーマーであり、解釈可能性の研究に理想的なテストベッドを提供する。
このモデルは、リッチな計算パターンを示すのに十分複雑であるが、意味のあるリバースエンジニアリングを可能にするルールベースのゲームロジックに基礎を置いている。
ルールベースのゲームロジックを符号化するMLPニューロンを識別・解釈するための決定木に基づく自動アプローチを提案する。
我々の手法は、回帰決定木をトレーニングして、ボード状態をニューロンの活性化にマッピングし、その後、ニューロンが高度に活動している決定経路を抽出し、それらを可読な論理形式に変換する。
これらの記述は高度に解釈可能なパターンを示し、例えば、対角運動が合法になったときに特異的に検出するニューロンである。
以上の結果から,5層のニューロンの約半数はコンパクトで規則に基づく決定木(R^2 > 0.7$,2,048ニューロンの913に対して)で正確に説明でき,残りのニューロンはより分散的あるいは非ルール的計算に参加する可能性が示唆された。
対象とした介入によって決定木によって識別されるパターンの因果関係を検証した。
特定の正方形に対して、特定のゲームパターンに対して、これらのパターンに対応するニューロンを吸収し、それらのパターンに沿った法的な動きを制御パターンと比較して予測するモデルの能力において、およそ5~10倍の劣化が見つかる。
今後の作業を容易にするために,ルールベースのゲーム動作を実装ニューロンにマッピングするPythonツールを提供する。
関連論文リスト
- Superposition disentanglement of neural representations reveals hidden alignment [6.015414975356222]
神経科学とAIにおいて、表現アライメントメトリクスは、異なるディープニューラルネットワーク(DNN)または脳が類似した情報を表現する範囲を測定する。
我々は、厳密な置換度が重ね合わせに依存するかの理論を開発する。
この結果から,ニューラルネットワーク間の真の表現的アライメントを明らかにするためには,重畳不整合(superposition disentanglement)が必要であることが示唆された。
論文 参考訳(メタデータ) (2025-10-03T17:12:40Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。
計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。
我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文 参考訳(メタデータ) (2023-05-01T15:22:41Z) - Biologically Inspired Neural Path Finding [71.77273989319868]
ヒトの脳は、シナプスによって接続された数千億の生物学的ニューロンからなるグラフィカルな構造と見なすことができる。
一般化グラフにおいて、ソースノードと宛先ノードの間の最適な低コスト経路を求めるための計算フレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-13T08:33:22Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs [91.71504177786792]
本稿では知識グラフに基づく推論のための論理規則の学習について研究する。
論理規則は、予測に使用されるときに解釈可能な説明を提供するとともに、他のタスクに一般化することができる。
既存の手法は、検索スペースの検索の問題や、スパース報酬による非効率な最適化に悩まされている。
論文 参考訳(メタデータ) (2020-10-08T14:47:02Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。