論文の概要: Dissociating Decodability and Causal Use in Bracket-Sequence Transformers
- arxiv url: http://arxiv.org/abs/2604.22128v1
- Date: Fri, 24 Apr 2026 00:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.29474
- Title: Dissociating Decodability and Causal Use in Bracket-Sequence Transformers
- Title(参考訳): ブラケットシーケンス変換器における解離性と因果的使用
- Authors: Aryan Sharma, Cutter Dawes, Shivam Raval,
- Abstract要約: 私たちは、深度、距離、およびトップ・オブ・スタックの信号はすべてデオード可能であるが、それらの因果的役割はばらばらになっていることに気付きます。
テンプレート付き自然言語設定に拡張された結果から、制御された設定であっても、デオーダビリティだけでは因果的使用を含まないことが示唆されている。
- 参考スコア(独自算出の注目度): 1.8962029954096566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When trained on tasks requiring an understanding of hierarchical structure, transformers have been found to represent this hierarchy in distinct ways: in the geometry of the residual stream, and in stack-like attention patterns maintaining a last-in, first-out ordering. However, it remains unclear whether these representations are causally used or merely decodable. We examine this gap in transformers trained on the Dyck language (a formal language of balanced bracket sequences), where the hierarchical ground truth is explicit. By probing and intervening on the residual stream and attention patterns, we find that depth, distance, and top-of-stack signals are all decodable, yet their causal roles diverge. Specifically, masking attention to the true top-of-stack position causes a sharp drop in long-distance accuracy, while ablating low-dimensional residual stream subspaces has comparatively little effect. These results, which extend to a templated natural language setting, suggest that even in a controlled setting where the relevant hierarchical variables are known, decodability alone does not imply causal use.
- Abstract(参考訳): 階層構造を理解する必要があるタスクについて訓練すると、トランスフォーマーはこの階層を異なる方法で表現することが判明した。
しかし、これらの表現が因果的に使われているか単に否定可能であるかは定かではない。
階層的基底真理が明確であるDyck言語(バランスの取れたブラケット列の形式言語)で訓練された変換器のこのギャップについて検討する。
残留するストリームと注意パターンを探索し、介入することにより、深さ、距離、およびトップ・オブ・スタックの信号はすべてデオード可能であるが、それらの因果的役割はばらばらになる。
特に、真のトップ・オブ・スタック位置への注意を隠蔽すると、長距離精度が急激に低下する一方、低次元の残留ストリーム部分空間は相対的にほとんど効果がない。
これらの結果はテンプレート化された自然言語設定にまで拡張され、関連する階層変数が知られている制御された設定においても、陰性性のみが因果的使用を意味するものではないことを示唆している。
関連論文リスト
- Explicit Dropout: Deterministic Regularization for Transformer Architectures [55.09895958546215]
ドロップアウトはディープラーニングにおいて広く使われている正規化手法であるが、その効果は一般的にマスキングによって実現される。
トレーニング損失に直接組み込まれた加算正則化器としてドロップアウトを表現する決定論的定式化を提案する。
論文 参考訳(メタデータ) (2026-04-22T12:45:51Z) - From Data Statistics to Feature Geometry: How Correlations Shape Superposition [23.393264014989615]
機械的解釈可能性における中心的な考え方は、ニューラルネットワークが次元よりも多くの特徴を表現することである。
重ね合わせは、特徴がスパースで非相関な理想的な設定で研究されている。
重ね合わせは一般に、幾何学的に最小化され、非線形性によってフィルタリングされなければならない干渉を導入するものとして理解される。
論文 参考訳(メタデータ) (2026-03-10T17:59:02Z) - Residual Connections and the Causal Shift: Uncovering a Structural Misalignment in Transformers [9.617245548268437]
大規模言語モデル(LLM)は、自動回帰変換器で実装された次世代の予測で訓練される。
残余接続は現在のトークンとアクティベーションを結び付け、監督は次のトークンをターゲットとします。
固定層介入や学習可能なゲーティング機構として実装された残差減衰に基づく軽量残差経路緩和法を提案する。
論文 参考訳(メタデータ) (2026-02-16T14:04:42Z) - Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution [3.0242762196828448]
大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
論文 参考訳(メタデータ) (2026-02-04T06:13:11Z) - Selective Induction Heads: How Transformers Select Causal Structures In Context [50.09964990342878]
因果構造を扱うトランスフォーマーの能力を示す新しいフレームワークを提案する。
我々のフレームワークは、遷移確率を固定しつつ、ラグの異なるマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
論文 参考訳(メタデータ) (2025-09-09T23:13:41Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文 参考訳(メタデータ) (2024-06-25T16:16:38Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。