論文の概要: A Mechanistic Investigation of Supervised Fine Tuning
- arxiv url: http://arxiv.org/abs/2605.11426v1
- Date: Tue, 12 May 2026 02:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.52832
- Title: A Mechanistic Investigation of Supervised Fine Tuning
- Title(参考訳): 監督された微調整の力学的検討
- Authors: Ruhaan Chopra,
- Abstract要約: Supervised Fine-Tuning (SFT) は、モデルのアクティベーション・ジオメトリをほとんど乱さないままにしている。
ベースモデル上で事前訓練されたスパースオートエンコーダを通じて、両方のアクティベーションセットを投影すると、基礎となるスパースラテントが著しく分散することが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cosine similarity between a large language model's hidden activations before and after Supervised Fine-Tuning (SFT) remains very high. This, at first glance, suggests that SFT leaves the model's activation geometry largely undisturbed. However, projecting both sets of activations through a Sparse Autoencoder (SAE) pretrained on the base model reveals that the underlying sparse latents diverge significantly. We introduce a novel investigative pipeline which utilizes these pretrained SAEs as a high-resolution diagnostic tool to mechanistically investigate the drivers of this representational divergence. Through our analytical pipeline, we discover task-specific and layer-specific distributions of the precise semantic features that are systematically altered during supervised fine-tuning. We additionally identify a layer-wise update profile specific to safety alignment. All code, experimental scripts, and analysis files associated with this work are publicly available at: https://github.com/ruhzi/sae-investigation.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) の前後における大きな言語モデルの隠れアクティベーションのコサイン類似性は非常に高いままである。
これは、一見すると、SFTがモデルの活性化幾何学をほとんど乱していないことを示唆している。
しかしながら、ベースモデル上で事前訓練されたスパースオートエンコーダ(SAE)を介して両方のアクティベーションセットを投影すると、基礎となるスパースラテントが著しく分散することが明らかになった。
本稿では、これらの事前訓練されたSAEを高分解能診断ツールとして利用し、この表現の発散の要因を機械的に調査する新しい探索パイプラインを提案する。
分析パイプラインを通して、教師付き微調整中に体系的に変化する精密な意味的特徴のタスク特化および層特化分布を探索する。
また、安全アライメントに特有なレイヤワイズ更新プロファイルを同定する。
この作業に関連するコード、実験的なスクリプト、分析ファイルはすべて、https://github.com/ruhzi/sae-investigation.comで公開されている。
関連論文リスト
- Beyond the Black Box: Interpretability of Agentic AI Tool Use [0.0]
本稿では,スパースオートエンコーダと線形プローブ上に構築された機械論的・解釈可能性ツールキットを提案する。
フレームワークは各アクションの前にモデル状態を読み出し、ツールが必要かどうか、そして次のツールアクションがいかに適切かの両方を推測する。
我々は、NVIDIA Nemotron関数呼び出しデータセットから多段階の軌道上のプローブをトレーニングし、GPT-OSS 20BとGemma 3 27Bモデルに同じワークフローを適用する。
論文 参考訳(メタデータ) (2026-05-07T19:47:30Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Toward Faithful Explanations in Acoustic Anomaly Detection [21.487734134424187]
現実の異常検出アプリケーションにおけるユーザ信頼の解釈性は不可欠である。
我々は,標準的なオートエンコーダ (AE) とマスクオートエンコーダ (MAE) を比較する。
MAEは一貫してより忠実で時間的に正確な説明を提供し、真の異常との整合性を示唆している。
論文 参考訳(メタデータ) (2026-01-19T02:16:37Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Interpretable Anomaly Detection in Encrypted Traffic Using SHAP with Machine Learning Models [0.0]
本研究の目的は,暗号化されたネットワークトラフィックにおける異常検出のための解釈可能な機械学習ベースのフレームワークを開発することである。
モデルはトレーニングされ、3つのベンチマークで暗号化されたトラフィックデータセットで評価される。
SHAPビジュアライゼーションは、異常予測に寄与する最も影響力のあるトラフィック特徴を明らかにした。
論文 参考訳(メタデータ) (2025-05-22T05:50:39Z) - Isolation Forest in Novelty Detection Scenario [0.0]
ノベルティ検出は、通常のデータのみをトレーニングした後、これまで見えなかったパターンを特定することに焦点を当てる。
本研究では,ストリーミング異常検出のために提案されたハーフスペースツリー(HST)アルゴリズムについて検討する。
本稿では,新規性検出タスクに特化して適応する理論的修正を提案する。
論文 参考訳(メタデータ) (2025-05-13T12:21:53Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。