論文の概要: Non-linear Interventions on Large Language Models
- arxiv url: http://arxiv.org/abs/2605.14749v1
- Date: Thu, 14 May 2026 12:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.811508
- Title: Non-linear Interventions on Large Language Models
- Title(参考訳): 大規模言語モデルにおける非線形干渉
- Authors: Sangwoo Kim,
- Abstract要約: 非直線的特徴に自然に拡張される介入の一般的な定式化を導入する。
我々はリファレンス・バイパスステアリング(refusal bypass steering)の枠組みを検証し、リファレンスを規定する非線形特徴に介入することにより、リファレンスベースラインよりも正確にモデルをステアリングする。
- 参考スコア(独自算出の注目度): 9.941320667191393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intervention is one of the most representative and widely used methods for understanding the internal representations of large language models (LLMs). However, existing intervention methods are confined to linear interventions grounded in the Linear Representation Hypothesis, leaving features encoded along non-linear manifolds beyond their reach. In this work, we introduce a general formulation of intervention that extends naturally to non-linearly represented features, together with a learning procedure that further enables intervention on implicit features lacking a direct output signature. We validate our framework on refusal bypass steering, where it steers the model more precisely than linear baselines by intervening on a non-linear feature governing refusal.
- Abstract(参考訳): インターベンション(英: Intervention)は、大規模言語モデル(LLM)の内部表現を理解するための最も代表的な手法の1つである。
しかし、既存の介入法は線形表現仮説の根底にある線形介入に限られており、非線型多様体に沿って符号化された特徴は到達範囲を超えている。
本研究では,非直線的特徴に自然に拡張される介入の一般的な定式化と,直接出力シグネチャを欠いた暗黙的特徴への介入を可能にする学習手順を紹介する。
我々はリファレンス・バイパスステアリング(refusal bypass steering)の枠組みを検証し、リファレンスを規定する非線形特徴に介入することにより、リファレンスベースラインよりも正確にモデルをステアリングする。
関連論文リスト
- Non-Parametric Rehearsal Learning via Conditional Mean Embeddings [88.89267783967263]
本研究では,不必要な未来(AUF)問題をテキスト化するための非パラメトリックリハーサル学習手法を提案する。
具体的には、カーネル機械を用いてAUFの目的を、動作誘起分布変化から所望性モデリングを遠ざける統一表現に再構成する。
論文 参考訳(メタデータ) (2026-05-09T15:30:52Z) - Curveball Steering: The Right Direction To Steer Isn't Always Linear [7.264147948470562]
アクティベーションステアリング(Activation steering)は、内部表現に介入して大きな言語モデル(LLM)の振る舞いを制御するために広く用いられるアプローチである。
本稿では,PCAカーネルをベースとした非線形ステアリング手法であるCurveball steeringを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:45:35Z) - Patches of Nonlinearity: Instruction Vectors in Large Language Models [47.132696509843164]
本研究では,ポストトレーニングの異なる段階において,命令固有の表現がどのように構築され,活用されるかを検討する。
命令表現はモデルにかなり局所化されている。
非線形因果相互作用を解消するために,言語モデルに情報処理をローカライズする手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T11:56:39Z) - Importance Sampling for Nonlinear Models [5.421981644827842]
非線形写像の随伴作用素の概念を導入する。
これらのノルムとレバレッジスコアの概念に基づくサンプリングは、基礎となる非線形写像に対して近似を保証することを実証する。
論文 参考訳(メタデータ) (2025-05-18T10:34:39Z) - Minimizing False-Positive Attributions in Explanations of Non-Linear Models [5.186535458271726]
Suppressor変数は、対象とする結果に依存することなく、モデル予測に影響を与える可能性がある。
これらの変数は偽陽性の特徴属性を引き起こし、説明の有用性を損なう可能性がある。
このギャップに対処する新しいXAI技術であるPatternLocalを紹介します。
論文 参考訳(メタデータ) (2025-05-16T13:06:12Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。