論文の概要: Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models
- arxiv url: http://arxiv.org/abs/2602.03506v1
- Date: Tue, 03 Feb 2026 13:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.464879
- Title: Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models
- Title(参考訳): 説明者の説明:トランスフォーマーに基づくシンボリック回帰モデルの内部動作の理解
- Authors: Arco van Breda, Erman Acar,
- Abstract要約: PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
- 参考スコア(独自算出の注目度): 3.7957452405531265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following their success across many domains, transformers have also proven effective for symbolic regression (SR); however, the internal mechanisms underlying their generation of mathematical operators remain largely unexplored. Although mechanistic interpretability has successfully identified circuits in language and vision models, it has not yet been applied to SR. In this article, we introduce PATCHES, an evolutionary circuit discovery algorithm that identifies compact and correct circuits for SR. Using PATCHES, we isolate 28 circuits, providing the first circuit-level characterisation of an SR transformer. We validate these findings through a robust causal evaluation framework based on key notions such as faithfulness, completeness, and minimality. Our analysis shows that mean patching with performance-based evaluation most reliably isolates functionally correct circuits. In contrast, we demonstrate that direct logit attribution and probing classifiers primarily capture correlational features rather than causal ones, limiting their utility for circuit discovery. Overall, these results establish SR as a high-potential application domain for mechanistic interpretability and propose a principled methodology for circuit discovery.
- Abstract(参考訳): 多くの領域で成功した後、トランスフォーマーはシンボリック回帰(SR)にも有効であることが証明されているが、それらの数学的作用素の生成の基礎となる内部メカニズムはほとんど解明されていない。
機械的解釈性は言語や視覚モデルにおける回路の同定に成功しているが、まだSRには適用されていない。
本稿では、SRのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムであるPATCHESを紹介する。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
信頼性,完全性,最小性といった重要な概念に基づいて,ロバストな因果評価フレームワークを用いてこれらの知見を検証した。
解析の結果,性能評価による平均パッチは機能的に正しい回路を最も確実に分離していることがわかった。
これとは対照的に、直接ロジット属性とプローブ分類器は因果関係ではなく相関関係の特徴を主に捉え、回路発見に有効性を制限することを実証する。
全体として、これらの結果は機械的解釈可能性のための高能率応用領域としてSRを確立し、回路発見の原理的手法を提案する。
関連論文リスト
- Measuring Uncertainty in Transformer Circuits with Effective Information Consistency [0.0]
本研究では,トランスフォーマー回路のシャーフ/コホモロジーと因果出現の視点を開発する。
EICSは(i)局所ジャコビアンとアクティベーションから計算された正規化棚の不整合と(ii)回路レベルの因果発生のためのガウスEIプロキシを組み合わせる。
本稿では,スコアの解釈,計算オーバーヘッド(高速かつ高精度なモード),およびおもちゃの健全性チェック分析に関する実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-08T18:54:56Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Sheaf Discovery with Joint Computation Graph Pruning and Flexible Granularity [18.71252449465396]
ニューラルネットワークモデル(LM)から自己完結型モジュールユニットを抽出するフレームワークであるDiscoGPを紹介する。
筆者らのフレームワークは,両者をグラデーション・ベース・プルーニング・アルゴリズムを用いてせん断を同定し,この手法により元のLMを,特定のコア機能を保持するスパーススケルトンに還元する。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Transformer-based Planning for Symbolic Regression [18.90700817248397]
シンボリック・レグレッションのためのトランスフォーマーに基づく計画戦略であるTPSRを提案する。
従来の復号法とは異なり、TPSRは精度や複雑さなど、微分不可能なフィードバックの統合を可能にする。
我々の手法は最先端の手法より優れており、モデルの適合・複雑性トレードオフ、象徴的能力、騒音に対する堅牢性を高めている。
論文 参考訳(メタデータ) (2023-03-13T03:29:58Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。