論文の概要: Extracting Rule-based Descriptions of Attention Features in Transformers
- arxiv url: http://arxiv.org/abs/2510.18148v1
- Date: Mon, 20 Oct 2025 22:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.652896
- Title: Extracting Rule-based Descriptions of Attention Features in Transformers
- Title(参考訳): 変圧器の注意特徴の規則に基づく記述の抽出
- Authors: Dan Friedman, Adithya Bhaskar, Alexander Wettig, Danqi Chen,
- Abstract要約: 注意層出力に基づいて学習したSAE特徴の規則に基づく記述について検討した。
ほとんどの機能は、約100のスキップグラムルールでうまく記述されているかもしれません。
本稿では,ルールに基づく特徴記述の今後の研究の基盤となる課題について述べる。
- 参考スコア(独自算出の注目度): 68.33953232728204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability strives to explain model behavior in terms of bottom-up primitives. The leading paradigm is to express hidden states as a sparse linear combination of basis vectors, called features. However, this only identifies which text sequences (exemplars) activate which features; the actual interpretation of features requires subjective inspection of these exemplars. This paper advocates for a different solution: rule-based descriptions that match token patterns in the input and correspondingly increase or decrease the likelihood of specific output tokens. Specifically, we extract rule-based descriptions of SAE features trained on the outputs of attention layers. While prior work treats the attention layers as an opaque box, we describe how it may naturally be expressed in terms of interactions between input and output features, of which we study three types: (1) skip-gram rules of the form "[Canadian city]... speaks --> English", (2) absence rules of the form "[Montreal]... speaks -/-> English," and (3) counting rules that toggle only when the count of a word exceeds a certain value or the count of another word. Absence and counting rules are not readily discovered by inspection of exemplars, where manual and automatic descriptions often identify misleading or incomplete explanations. We then describe a simple approach to extract these types of rules automatically from a transformer, and apply it to GPT-2 small. We find that a majority of features may be described well with around 100 skip-gram rules, though absence rules are abundant even as early as the first layer (in over a fourth of features). We also isolate a few examples of counting rules. This paper lays the groundwork for future research into rule-based descriptions of features by defining them, showing how they may be extracted, and providing a preliminary taxonomy of some of the behaviors they represent.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ボトムアッププリミティブの観点でモデル行動を説明する試みである。
主要なパラダイムは、特徴と呼ばれる基底ベクトルの疎線型結合として隠れ状態を表現することである。
しかし、これはどのテキストシーケンス(例)がどの特徴を活性化するかを特定するだけであり、実際の特徴の解釈はこれらの例を主観的に検査する必要がある。
本稿では、入力中のトークンパターンにマッチし、特定の出力トークンの可能性を増大または減少させるルールベースの記述という、異なる解を提唱する。
具体的には,注目層の出力に基づいて学習したSAE特徴の規則に基づく記述を抽出する。
先行研究では、注意層を不透明なボックスとして扱う一方で、入力と出力の特徴の相互作用の観点から自然に表現する方法について述べており、その3つのタイプについて研究している。(1)「[Canadian city]... speaks --> English」という形式のスキップグラム規則、(2)「[Montreal]... speaks -/-> English」という形式の欠落規則、(3)単語のカウントが特定の値を超える場合や、他の単語のカウント数を超える場合にのみ、トグルする規則である。
手動による記述や自動記述は、しばしば誤解を招いたり、不完全な説明を識別する。
次に,変換器からこれらのルールを自動的に抽出し,GPT-2小値に適用する簡単な手法を提案する。
たいていの機能は、約100のスキップグラムルールでうまく記述されているかもしれませんが、欠落ルールは第一層(4分の1以上の機能)として早くも豊富です。
また、ルールをカウントするいくつかの例も分離します。
本論文は,特徴の規則に基づく記述に関する今後の研究の基盤として,それらがどのように抽出されるかを示し,それらが表す行動の予備的な分類法を提供する。
関連論文リスト
- Rule2Text: Natural Language Explanation of Logical Rules in Knowledge Graphs [0.8135825089247968]
我々は,論理規則の自然言語説明を生成するために,大規模言語モデルの可能性を探究する。
具体的には、ベンチマークデータセットFB15k-237からAMIE 3.5.1ルール探索アルゴリズムを用いて論理ルールを抽出する。
可変エンティティ型やチェーン・オブ・シークレット推論など,ゼロ・ショットプロンプトや少数ショットプロンプトなど,さまざまなプロンプト戦略を検討する。
論文 参考訳(メタデータ) (2025-07-31T17:24:04Z) - Neuro-Symbolic Temporal Point Processes [13.72758658973969]
本稿では,時間点プロセスモデルにニューラル・シンボリック・ルール誘導フレームワークを導入する。
負の対数類似性は学習を導く損失であり、説明論理則とその重みがエンドツーエンドで学習される。
提案手法は, 合成データセットおよび実データセット間で, 顕著な効率性と精度を示す。
論文 参考訳(メタデータ) (2024-06-06T09:52:56Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks [6.390468088226495]
本研究では,木バンクから重要な粒度の文法パターンを抽出し,探索する手法を提案する。
我々は,異なる言語にまたがる記述や規則を抽出し,合意と語順の2つの言語現象について考察する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
論文 参考訳(メタデータ) (2024-03-26T09:39:53Z) - Rule-driven News Captioning [33.145889362997316]
ニュースキャプションタスクは、そのニュース記事で画像のための名前付きエンティティや具体的なイベントを記述することによって、文を生成することを目的としている。
既存の手法は、大規模な事前訓練モデルに依存することで、顕著な成果を上げている。
指定されたルール信号に従って画像記述を生成できるルール駆動型ニュースキャプション手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T07:06:43Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - RulE: Knowledge Graph Reasoning with Rule Embedding [69.31451649090661]
我々は、論理ルールを活用してKG推論を強化する、textbfRulE(ルール埋め込みのためのスタンド)と呼ばれる原則的なフレームワークを提案する。
RulEは、既存の三重項と一階規則からルールの埋め込みを学習し、統一された埋め込み空間において、textbfentities、textbfrelations、textbflogical rulesを共同で表現する。
複数のベンチマークの結果、我々のモデルは既存の埋め込みベースのアプローチやルールベースのアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-10-24T06:47:13Z) - An Exploration And Validation of Visual Factors in Understanding
Classification Rule Sets [21.659381756612866]
ルールセットは、透明性と知性が必要な設定でモデルロジックを伝える手段として、機械学習(ML)でよく使用される。
意外なことに、これまではルールを提示するための視覚的な代替策を探究する作業が限られていた。
この作業は、MLモデルを理解するためのコミュニケーション戦略としてルールを使用する場合、実践者がより効果的なソリューションを採用するのに役立つ。
論文 参考訳(メタデータ) (2021-09-19T16:33:16Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。