Fugu-MT 論文翻訳(概要): Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach

論文の概要: Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach

arxiv url: http://arxiv.org/abs/2407.13594v1
Date: Thu, 18 Jul 2024 15:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:51:11.017154
Title: Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach
Title（参考訳）: 変圧器をベースとした2-SATソルバーの機械的解釈--公理論的アプローチ
Authors: Nils Palumbo, Ravi Mangal, Zifan Wang, Saranya Vijayakumar, Corina S. Pasareanu, Somesh Jha,
Abstract要約: 機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
参考スコア（独自算出の注目度）: 28.336108192282737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mechanistic interpretability aims to reverse engineer the computation performed by a neural network in terms of its internal components. Although there is a growing body of research on mechanistic interpretation of neural networks, the notion of a mechanistic interpretation itself is often ad-hoc. Inspired by the notion of abstract interpretation from the program analysis literature that aims to develop approximate semantics for programs, we give a set of axioms that formally characterize a mechanistic interpretation as a description that approximately captures the semantics of the neural network under analysis in a compositional manner. We use these axioms to guide the mechanistic interpretability analysis of a Transformer-based model trained to solve the well-known 2-SAT problem. We are able to reverse engineer the algorithm learned by the model -- the model first parses the input formulas and then evaluates their satisfiability via enumeration of different possible valuations of the Boolean input variables. We also present evidence to support that the mechanistic interpretation of the analyzed model indeed satisfies the stated axioms.
Abstract（参考訳）: 機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。ニューラルネットワークの機械的解釈に関する研究は増えているが、機械的解釈そのものの概念は、しばしばアドホックである。プログラムのセマンティクスを近似的に開発することを目的としたプログラム解析文献から抽象的解釈の概念に着想を得て,我々は,ニューラルネットワークのセマンティクスを概ね合成的に捉えた記述として,機械的解釈を形式的に特徴付ける一連の公理を与える。これらの公理を用いて、よく知られた2-SAT問題の解法を訓練したTransformerベースのモデルの機械論的解釈可能性解析を導出する。モデルによって学習されたアルゴリズムをリバースエンジニアリングすることができます -- モデルがまず入力公式を解析し、Booleanの入力変数のさまざまな値の列挙によってその満足度を評価するのです。また、解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠も提示する。

関連論文リスト

Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning [50.99796659680724]
本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。我々は,OOD一般化の強化を目的とした4つのアーキテクチャ機構のセットを紹介し,検討する。我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
論文参考訳（メタデータ） (2025-10-15T21:03:59Z)
Embryology of a Language Model [1.1874560263468232]
本研究では, モデルの構造的発達を可視化するために, UMAPを感受性マトリックスに適用する胚学的アプローチを提案する。我々の可視化は、誘導回路のような既知の特徴の形成と、以前に未知の構造を発見したことのグラフを、明確なボディプランの出現を示す。
論文参考訳（メタデータ） (2025-08-01T05:39:41Z)
How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文参考訳（メタデータ） (2025-05-29T17:02:49Z)
A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i [0.0]
我々は、機械的解釈可能性の研究は、モデルを理解するための原則的なアプローチであると主張している。説明的忠実性(Explainatory Faithfulness)は、説明がモデルにどの程度適合するかを評価する。
論文参考訳（メタデータ） (2025-05-01T19:08:34Z)
Neural Interpretable Reasoning [12.106771300842945]
ディープラーニングにおける解釈可能性を実現するための新しいモデリングフレームワークを定式化する。この複雑性はマルコフ的性質として解釈可能性を扱うことにより緩和できることを示す。我々はニューラルジェネレーションと解釈可能な実行という新しいモデリングパラダイムを提案する。
論文参考訳（メタデータ） (2025-02-17T10:33:24Z)
Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文参考訳（メタデータ） (2025-02-13T07:19:05Z)
A Comprehensive Survey on Self-Interpretable Neural Networks [36.0575431131253]
自己解釈型ニューラルネットワークは、本質的にモデル構造を通して予測合理的性を明らかにする。まず、自己解釈型ニューラルネットワークに関する既存の研究を収集、レビューし、その方法論を構造化した概要を提供する。また、モデル説明の具体的、可視化された例を示し、その適用性について様々なシナリオで論じる。
論文参考訳（メタデータ） (2025-01-26T18:50:16Z)
The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文参考訳（メタデータ） (2024-05-03T22:30:15Z)
An Encoding of Abstract Dialectical Frameworks into Higher-Order Logic [57.24311218570012]
このアプローチは抽象弁証法フレームワークのコンピュータ支援分析を可能にする。応用例としては、メタ理論的性質の形式的解析と検証がある。
論文参考訳（メタデータ） (2023-12-08T09:32:26Z)
Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文参考訳（メタデータ） (2023-12-03T15:34:46Z)
Uncovering Intermediate Variables in Transformers using Circuit Probing [28.81226181942661]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文参考訳（メタデータ） (2023-11-07T21:27:17Z)
Discovering interpretable elastoplasticity models via the neural polynomial method enabled symbolic regressions [0.0]
従来のニューラルネットワークの弾塑性モデルは、しばしば解釈可能性に欠けると見なされる。本稿では,人間専門家が解釈可能な数学的モデルを返す2段階の機械学習手法を提案する。
論文参考訳（メタデータ） (2023-07-24T22:22:32Z)
Adversarial Attacks on the Interpretation of Neuron Activation Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文参考訳（メタデータ） (2023-06-12T19:54:33Z)
Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability [30.76910454663951]
因果抽象化は機械的解釈可能性の理論的基盤を提供する。我々の貢献は、メカニズム置換から任意のメカニズム変換への因果的抽象化の理論の一般化である。
論文参考訳（メタデータ） (2023-01-11T20:42:41Z)
Local Interpretable Model Agnostic Shap Explanations for machine learning models [0.0]
局所解釈可能なモデル非依存型シェイプ説明法(LIMASE)を提案する。提案手法は, LIMEパラダイムの下でシェープリー値を用いて, 局所的忠実かつ解釈可能な決定木モデルを用いて, シェープリー値を計算し, 視覚的に解釈可能な説明を行うことにより, 任意のモデルの予測を行う。
論文参考訳（メタデータ） (2022-10-10T10:07:27Z)
Hessian-based toolbox for reliable and interpretable machine learning in physics [58.720142291102135]
本稿では,モデルアーキテクチャの解釈可能性と信頼性,外挿を行うためのツールボックスを提案する。与えられたテストポイントでの予測に対する入力データの影響、モデル予測の不確実性の推定、およびモデル予測の不可知スコアを提供する。我々の研究は、物理学やより一般的には科学に適用されたMLにおける解釈可能性と信頼性の方法の体系的利用への道を開く。
論文参考訳（メタデータ） (2021-08-04T16:32:59Z)
Interpretable Deep Learning: Interpretations, Interpretability, Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文参考訳（メタデータ） (2021-03-19T08:40:30Z)
A Chain Graph Interpretation of Real-World Neural Networks [58.78692706974121]
本稿では,NNを連鎖グラフ(CG)、フィードフォワードを近似推論手法として識別する別の解釈を提案する。 CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する。我々は,CG解釈が様々なNN技術に対する新しい理論的支援と洞察を提供することを示す具体例を実例で示す。
論文参考訳（メタデータ） (2020-06-30T14:46:08Z)
Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文参考訳（メタデータ） (2020-05-02T06:50:35Z)
Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。 SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文参考訳（メタデータ） (2020-04-28T07:24:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。