論文の概要: Patches of Nonlinearity: Instruction Vectors in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07930v1
- Date: Sun, 08 Feb 2026 11:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.876607
- Title: Patches of Nonlinearity: Instruction Vectors in Large Language Models
- Title(参考訳): 非線形性のパッチ:大規模言語モデルにおける命令ベクトル
- Authors: Irina Bigoulaeva, Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych,
- Abstract要約: 本研究では,ポストトレーニングの異なる段階において,命令固有の表現がどのように構築され,活用されるかを検討する。
命令表現はモデルにかなり局所化されている。
非線形因果相互作用を解消するために,言語モデルに情報処理をローカライズする手法を提案する。
- 参考スコア(独自算出の注目度): 47.132696509843164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of instruction-tuned language models and their ubiquitous usage, very little is known of how models process instructions internally. In this work, we address this gap from a mechanistic point of view by investigating how instruction-specific representations are constructed and utilized in different stages of post-training: Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO). Via causal mediation, we identify that instruction representation is fairly localized in models. These representations, which we call Instruction Vectors (IVs), demonstrate a curious juxtaposition of linear separability along with non-linear causal interaction, broadly questioning the scope of the linear representation hypothesis commonplace in mechanistic interpretability. To disentangle the non-linear causal interaction, we propose a novel method to localize information processing in language models that is free from the implicit linear assumptions of patching-based techniques. We find that, conditioned on the task representations formed in the early layers, different information pathways are selected in the later layers to solve that task, i.e., IVs act as circuit selectors.
- Abstract(参考訳): 最近のインストラクションチューニング言語モデルの成功とユビキタスな使用にもかかわらず、モデルがどのように内部で命令を処理するかはほとんど分かっていない。
本研究は,命令固有表現がポストトレーニングの異なる段階においてどのように構築され,活用されるかを検討することで,機械的観点からのこのギャップに対処する。
因果仲裁により、命令表現がモデルにおいてかなり局所化されていることを同定する。
Instruction Vectors (IVs) と呼ばれるこれらの表現は、線形分離性と非線形因果相互作用の興味深い並置を示し、機械的解釈可能性において共通する線形表現仮説の範囲を広く疑問視する。
本研究では,非線形因果的相互作用を解消するために,パッチ方式の暗黙の線形仮定を伴わない言語モデルにおいて,情報処理を局所化する手法を提案する。
初期層で形成されたタスク表現に基づいて、後層で異なる情報経路が選択され、そのタスク、すなわち、IVが回路セレクタとして機能することがわかった。
関連論文リスト
- Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。
これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文 参考訳(メタデータ) (2025-05-31T17:45:18Z) - Minimizing False-Positive Attributions in Explanations of Non-Linear Models [5.186535458271726]
Suppressor変数は、対象とする結果に依存することなく、モデル予測に影響を与える可能性がある。
これらの変数は偽陽性の特徴属性を引き起こし、説明の有用性を損なう可能性がある。
このギャップに対処する新しいXAI技術であるPatternLocalを紹介します。
論文 参考訳(メタデータ) (2025-05-16T13:06:12Z) - ASIDE: Architectural Separation of Instructions and Data in Language Models [87.16417239344285]
ASIDEは言語モデルに対して、埋め込みのレベルで命令とデータを明確に分離することを可能にする。
本稿では,ASIDE を用いた命令調整 LLM がモデルユーティリティを損なうことなく,命令データ分離の高度化につながることを実験的に示す。
モデル表現の分析を通じて,本手法の基盤となるメカニズムについて考察する。
論文 参考訳(メタデータ) (2025-03-13T17:17:17Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Fair Interpretable Representation Learning with Correction Vectors [60.0806628713968]
我々は「補正ベクトル」の学習を中心にした公正表現学習のための新しい枠組みを提案する。
このような方法で制約されたいくつかの公正表現学習モデルが、ランキングや分類性能の損失を示さないことを実験的に示す。
論文 参考訳(メタデータ) (2022-02-07T11:19:23Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。