論文の概要: Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models
- arxiv url: http://arxiv.org/abs/2602.03506v1
- Date: Tue, 03 Feb 2026 13:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.464879
- Title: Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models
- Title(参考訳): 説明者の説明:トランスフォーマーに基づくシンボリック回帰モデルの内部動作の理解
- Authors: Arco van Breda, Erman Acar,
- Abstract要約: PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
- 参考スコア(独自算出の注目度): 3.7957452405531265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following their success across many domains, transformers have also proven effective for symbolic regression (SR); however, the internal mechanisms underlying their generation of mathematical operators remain largely unexplored. Although mechanistic interpretability has successfully identified circuits in language and vision models, it has not yet been applied to SR. In this article, we introduce PATCHES, an evolutionary circuit discovery algorithm that identifies compact and correct circuits for SR. Using PATCHES, we isolate 28 circuits, providing the first circuit-level characterisation of an SR transformer. We validate these findings through a robust causal evaluation framework based on key notions such as faithfulness, completeness, and minimality. Our analysis shows that mean patching with performance-based evaluation most reliably isolates functionally correct circuits. In contrast, we demonstrate that direct logit attribution and probing classifiers primarily capture correlational features rather than causal ones, limiting their utility for circuit discovery. Overall, these results establish SR as a high-potential application domain for mechanistic interpretability and propose a principled methodology for circuit discovery.
- Abstract(参考訳): 多くの領域で成功した後、トランスフォーマーはシンボリック回帰(SR)にも有効であることが証明されているが、それらの数学的作用素の生成の基礎となる内部メカニズムはほとんど解明されていない。
機械的解釈性は言語や視覚モデルにおける回路の同定に成功しているが、まだSRには適用されていない。
本稿では、SRのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムであるPATCHESを紹介する。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
信頼性,完全性,最小性といった重要な概念に基づいて,ロバストな因果評価フレームワークを用いてこれらの知見を検証した。
解析の結果,性能評価による平均パッチは機能的に正しい回路を最も確実に分離していることがわかった。
これとは対照的に、直接ロジット属性とプローブ分類器は因果関係ではなく相関関係の特徴を主に捉え、回路発見に有効性を制限することを実証する。
全体として、これらの結果は機械的解釈可能性のための高能率応用領域としてSRを確立し、回路発見の原理的手法を提案する。
関連論文リスト
- Certified Circuits: Stability Guarantees for Mechanistic Circuits [80.30622018787835]
Certified Circuitsは、回路発見のための証明可能な安定性を保証する。
ImageNetとOODデータセットでは、認定回路は91%高い精度を達成する。
論文 参考訳(メタデータ) (2026-02-26T13:07:31Z) - Measuring Uncertainty in Transformer Circuits with Effective Information Consistency [0.0]
本研究では,トランスフォーマー回路のシャーフ/コホモロジーと因果出現の視点を開発する。
EICSは(i)局所ジャコビアンとアクティベーションから計算された正規化棚の不整合と(ii)回路レベルの因果発生のためのガウスEIプロキシを組み合わせる。
本稿では,スコアの解釈,計算オーバーヘッド(高速かつ高精度なモード),およびおもちゃの健全性チェック分析に関する実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-08T18:54:56Z) - Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought [11.307072056343662]
本稿では,マイクロサービスシステムに対する適応的根本原因ローカライゼーション手法であるRCLAgentを紹介する。
RCLAgentは,1つの要求出力状態のみを用いて根本原因を局所化し,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-28T02:34:19Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。
我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。
ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文 参考訳(メタデータ) (2025-07-13T01:09:26Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Sheaf Discovery with Joint Computation Graph Pruning and Flexible Granularity [18.71252449465396]
ニューラルネットワークモデル(LM)から自己完結型モジュールユニットを抽出するフレームワークであるDiscoGPを紹介する。
筆者らのフレームワークは,両者をグラデーション・ベース・プルーニング・アルゴリズムを用いてせん断を同定し,この手法により元のLMを,特定のコア機能を保持するスパーススケルトンに還元する。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Transformer-based Planning for Symbolic Regression [18.90700817248397]
シンボリック・レグレッションのためのトランスフォーマーに基づく計画戦略であるTPSRを提案する。
従来の復号法とは異なり、TPSRは精度や複雑さなど、微分不可能なフィードバックの統合を可能にする。
我々の手法は最先端の手法より優れており、モデルの適合・複雑性トレードオフ、象徴的能力、騒音に対する堅牢性を高めている。
論文 参考訳(メタデータ) (2023-03-13T03:29:58Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。