論文の概要: Causal Interventions on Continuous Variables: A Case Study on Verb Bias in Steering Vectors for In-Context Learning
- arxiv url: http://arxiv.org/abs/2605.29971v1
- Date: Thu, 28 May 2026 14:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.379456
- Title: Causal Interventions on Continuous Variables: A Case Study on Verb Bias in Steering Vectors for In-Context Learning
- Title(参考訳): 連続変数に対する因果的介入--文脈内学習のためのステアリングベクトルの動詞バイアスを事例として
- Authors: Zhenghao Herbert Zhou, R. Thomas McCoy, Robert Frank,
- Abstract要約: 本稿では,連続変数に対する因果介入法を提案する。
本手法を心理言語学,すなわち動詞バイアスにおいてよく研究されている連続的特徴に適用する。
動詞バイアスは,大規模言語モデルから抽出したステアリングベクトルに因果的に表されることを示す。
- 参考スコア(独自算出の注目度): 7.320379735876713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal interventions in language model representations have largely targeted discrete features, like grammatical number. However, language models must also make use of features that are graded. We introduce a method for causal intervention on continuous variables: given activation vectors paired with a graded target variable, we localize a low-dimensional direction for that variable and use this direction to edit a vectors toward counterfactual target values. We apply this method to a continuous feature that is well-studied in psycholinguistics, namely verb bias (which reflects which syntactic structures tend to follow a given verb). We show that verb bias is causally represented in steering vectors extracted from large language models: counterfactual edits to verb bias systematically shift downstream structural preferences. Verb bias has also previously been linked to in-context learning; in further analyses, we find that steering vectors encode error signals that could drive the error-driven update behavior seen in in-context learning but that these aspects of the steering vectors are not causally used in downstream production. Overall, these results show causal interventions can be applied to continuous variables, though connecting continuous variables to in-context learning remains a challenge.
- Abstract(参考訳): 言語モデル表現における因果的介入は、文法的数など、主に離散的な特徴を標的としている。
しかし、言語モデルは、グレードされた機能を利用する必要がある。
連続変数に対する因果的介入法を提案する: 与えられたアクティベーションベクトルと次数化されたターゲット変数をペアにし、その変数に対して低次元の方向をローカライズし、この方向を用いてベクトルを反現実的ターゲット値に向けて編集する。
本稿では,この手法を,心理言語学,すなわち動詞バイアス(どの構文構造が与えられた動詞に従う傾向があるかを反映した)においてよく研究される連続的な特徴に適用する。
動詞バイアスは,大規模言語モデルから抽出したステアリングベクトルに因果的に表されることを示す。
さらに分析したところ、ステアリングベクターは、コンテキスト内学習で見られるエラー駆動更新動作を駆動するエラー信号を符号化しているが、これらのステアリングベクターの側面は、下流生産において因果的に使われていないことが判明した。
これらの結果は、連続変数と文脈内学習を結びつけることは依然として課題だが、連続変数に対する因果介入が適用可能であることを示している。
関連論文リスト
- When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing [0.0]
自己参照語彙が同時アクティベーションダイナミクスを追跡することを示す。
我々は、自己参照と記述処理を区別する活性化空間の方向を特定する。
発見は、変圧器モデルにおける自己申告が適切な条件下で、内部の計算状態を確実に追跡できることを示唆している。
論文 参考訳(メタデータ) (2026-02-11T20:44:33Z) - When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers [1.1510009152620668]
トランスフォーマーベースのモデルは、解釈が難しい隠された状態を生成する。
隠れた状態を解析し、推論で修正し、動き予測に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-17T15:07:55Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。