論文の概要: Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs
- arxiv url: http://arxiv.org/abs/2602.10352v1
- Date: Tue, 10 Feb 2026 22:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.325762
- Title: Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs
- Title(参考訳): 解釈可能性人工物から自己解釈を学習する:ベクトルラベルペアを用いた軽量適応器の訓練
- Authors: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena,
- Abstract要約: 自己解釈法は言語モデルに自身の内部状態を記述するよう促す。
本報告では,LMを完全に凍結する一方で,軽量アダプタの操作性を向上させることで,信頼性の高い自己解釈が得られることを示す。
- 参考スコア(独自算出の注目度): 1.028001761831691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-interpretation methods prompt language models to describe their own internal states, but remain unreliable due to hyperparameter sensitivity. We show that training lightweight adapters on interpretability artifacts, while keeping the LM entirely frozen, yields reliable self-interpretation across tasks and model families. A scalar affine adapter with just $d_\text{model}+1$ parameters suffices: trained adapters generate sparse autoencoder feature labels that outperform the training labels themselves (71% vs 63% generation scoring at 70B scale), identify topics with 94% recall@1 versus 1% for untrained baselines, and decode bridge entities in multi-hop reasoning that appear in neither prompt nor response, surfacing implicit reasoning without chain-of-thought. The learned bias vector alone accounts for 85% of improvement, and simpler adapters generalize better than more expressive alternatives. Controlling for model knowledge via prompted descriptions, we find self-interpretation gains outpace capability gains from 7B to 72B parameters. Our results demonstrate that self-interpretation improves with scale, without modifying the model being interpreted.
- Abstract(参考訳): 自己解釈法は言語モデルに自身の内部状態を記述するよう促すが、ハイパーパラメータの感度のために信頼性が低いままである。
本報告では,LMを凍結したままにしながら,解釈可能なアーティファクトに対する軽量アダプタのトレーニングを行うことで,タスクやモデルファミリ間の信頼性の高い自己解釈が得られることを示す。
単に$d_\text{model}+1$パラメータのスカラーアフィンアダプタ: トレーニングアダプタは、トレーニングラベル自体よりも優れたスパースオートエンコーダ特徴ラベルを生成する(70Bスケールで71%対63%)。
学習されたバイアスベクトルだけでは改善の85%を占めており、より単純なアダプタはより表現力のある代替品よりも一般化されている。
モデル知識の制御を行うと,自己解釈が7Bから72Bのパラメータよりも向上することがわかった。
この結果から,自己解釈は,解釈対象のモデルを変更することなく,スケールで改善することが示された。
関連論文リスト
- Direct Semantic Communication Between Large Language Models via Vector Translation [3.81908263930559]
大規模言語モデル(LLM)は、メッセージをプレーントークンとして渡すことで、最も遅延したセマンティクスを破棄する。
我々は、直接意味交換を可能にする学習されたマッピングを用いて、ベクトル変換を介して潜時ブリッジを形成する。
論文 参考訳(メタデータ) (2025-11-06T00:43:29Z) - Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning [2.247737938202007]
細調整中に各ラベルに簡単な説明を付けると、より優れたモデルが得られるかどうかを評価する。
我々は、人間による説明を、構文的に不整合でありながら原文と一致するテキストに置き換える。
この効果はデータセットにまたがって持続し、種子を訓練することで、ゲインは構造よりも意味から生じないことを示している。
論文 参考訳(メタデータ) (2025-11-03T20:25:42Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora? [3.780441744500289]
BERTとOpenAIのGPT 3.5を含む11の事前トレーニングモデルを使用して、3つの言語にまたがる6つのデータセットで実験を行った。
以上の結果から,すべての言語やモデルに矛盾が生じていることが判明した。
迅速な対応がなければ、単純化された入力は、最大50%の成功率でゼロイットモデルに依存しない敵攻撃を構築するために簡単に利用することができる。
論文 参考訳(メタデータ) (2024-04-10T09:02:33Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Does entity abstraction help generative Transformers reason? [8.159805544989359]
本稿では,事前学習したトランスフォーマーにエンティティ型抽象化を組み込むことの有用性について検討する。
論理的推論の異なる4つのNLPタスクに対して,これらの手法を検証した。
論文 参考訳(メタデータ) (2022-01-05T19:00:53Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Learning to Faithfully Rationalize by Construction [36.572594249534866]
多くの設定において、モデルが特別な予測をした理由を理解することが重要である。
提案手法は, 構築による忠実な説明を提供する, このアプローチの簡易な変種を提案する。
自動評価と手動評価の両方において、この単純なフレームワークの変種はエンドツーエンドのアプローチよりも優れていることが分かる。
論文 参考訳(メタデータ) (2020-04-30T21:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。