論文の概要: Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers
- arxiv url: http://arxiv.org/abs/2606.03398v1
- Date: Tue, 02 Jun 2026 09:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.91277
- Title: Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers
- Title(参考訳): 変圧器を用いた対数言語モデリングにおけるスタック表現の因果的証拠
- Authors: Nishit Singh,
- Abstract要約: 線形プローブはモデルの隠れ状態から各トークンのスタック深さを予測するために訓練される。
本稿では,これらの表現の因果的役割について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formal languages have proven to be effective conduits to understand the inner mechanisms of transformers. Past work has shown that transformers trained on next token prediction over counter languages learn representations consistent with an underlying stack structure. Beyond representational analysis, this paper investigates the causal role of these representations. Linear probes are trained to predict the stack depth at each token from the model's hidden states, and a principal representation direction is extracted from the probe. Ablation of this direction from the model causes sequential accuracy to collapse to near 0%, providing strong empirical evidence that the stack representation is not just learned, but is causally necessary for model performance.
- Abstract(参考訳): 形式言語は変換器の内部メカニズムを理解するのに効果的なコンデュットであることが証明されている。
過去の研究によると、反言語に対する次のトークン予測で訓練されたトランスフォーマーは、基盤となるスタック構造と整合した表現を学ぶ。
本稿では,これらの表現の因果的役割について検討する。
モデルの隠れ状態から各トークンのスタック深さを予測するために線形プローブを訓練し、プローブから主表現方向を抽出する。
モデルからのこの方向のアブレーションは、逐次精度を0%近くに低下させ、スタック表現が単に学習されているだけでなく、モデルのパフォーマンスに因果的に必要であることを示す強い実証的な証拠を与える。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Emergent Stack Representations in Modeling Counter Languages Using Transformers [0.8948475969696075]
4つの対向言語でトランスモデルを訓練し、スタックを使ってこれらの言語を等価に定式化する。
入力トークン毎のスタック深度に関する内部表現を探索し、次のトークン予測器として訓練された場合、スタックのような表現が学習されることを示す。
これにより、トランスフォーマーが言語を学習し、回路発見に役立つアルゴリズムの詳細を理解することができます。
論文 参考訳(メタデータ) (2025-02-03T15:11:49Z) - Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。
変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。
また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:14:44Z) - Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Token-wise Decomposition of Autoregressive Language Model Hidden States
for Analyzing Model Predictions [9.909170013118775]
本研究は,各初期入力トークンに基づいて,自己回帰言語モデルから最終隠れ状態の線形分解を行う。
次単語確率の変化を重要度尺度として、まず、どの文脈語が言語モデル予測に最も貢献するかを検討する。
論文 参考訳(メタデータ) (2023-05-17T23:55:32Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。