論文の概要: Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences
- arxiv url: http://arxiv.org/abs/2510.13900v1
- Date: Tue, 14 Oct 2025 19:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.525361
- Title: Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences
- Title(参考訳): Narrow Finetuningは、活性差で読みやすい微量の痕跡を抽出する
- Authors: Julian Minder, Clément Dumas, Stewart Slocum, Helena Casademunt, Cameron Holmes, Robert West, Neel Nanda,
- Abstract要約: 狭い微調整はLLM活性化に強いバイアスをもたらし、微調整領域を理解するために解釈できることを示す。
これらのバイアスは、モデル差分法による単純なツールを使って見つけることができる。
これらの分析はLLMベースの解釈可能性エージェントを作成することによって重要な情報を含むことを示す。
- 参考スコア(独自算出の注目度): 16.09906989518837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning on narrow domains has become an essential tool to adapt Large Language Models (LLMs) to specific tasks and to create models with known unusual properties that are useful for research. We show that narrow finetuning creates strong biases in LLM activations that can be interpreted to understand the finetuning domain. These biases can be discovered using simple tools from model diffing - the study of differences between models before and after finetuning. In particular, analyzing activation differences on the first few tokens of random text and steering by adding this difference to the model activations produces text similar to the format and general content of the finetuning data. We demonstrate that these analyses contain crucial information by creating an LLM-based interpretability agent to understand the finetuning domain. With access to the bias, the agent performs significantly better compared to baseline agents using simple prompting. Our analysis spans synthetic document finetuning for false facts, emergent misalignment, subliminal learning, and taboo word guessing game models across different architectures (Gemma, LLaMA, Qwen) and scales (1B to 32B parameters). We suspect these biases reflect overfitting and find that mixing pretraining data into the finetuning corpus largely removes them, though residual risks may remain. Our work (1) demonstrates that narrowly finetuned models have salient traces of their training objective in their activations and suggests ways to improve how they are trained, (2) warns AI safety and interpretability researchers that the common practice of using such models as a proxy for studying broader finetuning (e.g., chat-tuning) might not be realistic, and (3) highlights the need for deeper investigation into the effects of narrow finetuning and development of truly realistic case studies for model-diffing, safety and interpretability research.
- Abstract(参考訳): 狭い領域の微調整は、大規模言語モデル(LLM)を特定のタスクに適応させ、研究に役立つ既知の異常な特性を持つモデルを作成するために欠かせないツールとなっている。
狭い微調整はLLM活性化に強いバイアスをもたらし、微調整領域を理解するために解釈できることを示す。
これらのバイアスは、モデル差分法(モデル差分法)の単純なツール(微調整前後のモデル差分法)を使って見つけることができる。
特に、モデルアクティベーションにこの差を加えることで、ランダムテキストの最初の数個のトークンとステアリングのアクティベーション差を分析し、微調整データのフォーマットや一般的な内容に似たテキストを生成する。
これらの分析は、微調整領域を理解するためのLLMベースの解釈可能性エージェントを作成することで、重要な情報を含んでいることを実証する。
バイアスへのアクセスにより、単純なプロンプトを用いたベースラインエージェントよりも、はるかに優れた性能を発揮する。
我々の分析は, 誤り事実, 創発的誤認識, サブリミナル学習, および様々なアーキテクチャ (Gemma, LLaMA, Qwen) およびスケール (1Bから32Bパラメータ) にわたる単語推定ゲームモデルに対する合成文書の微調整にまたがる。
これらのバイアスは過度な適合を反映していると考えられており、未学習データを微調整コーパスに混ぜることで、残留するリスクは残るが、ほとんど取り除かれる。
我々の研究(1)は、狭義のモデルが訓練目標の健全な痕跡を持ち、訓練方法を改善する方法を示し、(2)AIの安全性と解釈可能性の研究者は、より広範な微調整(チャットチューニング)を研究するためのプロキシとして、そのようなモデルを使うという一般的な実践は現実的ではないと警告し、(3)狭義の微調整の効果についてより深い調査の必要性を強調し、真に現実的なケーススタディであるモデルディファリング、安全性、解釈可能性の研究の必要性を強調した。
関連論文リスト
- AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks [37.278707106871295]
プレトレーニング中にモデルが学習する基礎的能力に微調整がどう影響するかを考察する。
微調整が基礎となるモデル能力を変えることは滅多にない。
また、微調整により、意図せずにモデルの安全ラッパーを除去できることも示している。
論文 参考訳(メタデータ) (2023-11-21T18:51:04Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z) - What Happens To BERT Embeddings During Fine-tuning? [19.016185902256826]
細調整がBERTモデルの表現に与える影響について検討する。
微調整は主にBERTの上位層に影響を与えるが、タスク間で注目すべきバリエーションがある。
特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を伴っているように見える。
論文 参考訳(メタデータ) (2020-04-29T19:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。