論文の概要: Robustly identifying concepts introduced during chat fine-tuning using crosscoders
- arxiv url: http://arxiv.org/abs/2504.02922v1
- Date: Thu, 03 Apr 2025 17:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:50:06.108221
- Title: Robustly identifying concepts introduced during chat fine-tuning using crosscoders
- Title(参考訳): クロスコーダを用いたチャット微調整時に導入された概念をロバストに識別する
- Authors: Julian Minder, Clement Dumas, Caden Juang, Bilal Chugtai, Neel Nanda,
- Abstract要約: クロスコーダは、ベースモデルと微調整モデルの両方において遅延方向として表される解釈可能な概念の共用辞書を学習する、最近のモデル微分法である。
両モデルに実際に存在するとき,概念を微調整モデルに固有のものと誤帰できるクロスコーダL1のトレーニング損失に起因する2つの問題を同定する。
BatchTopKの損失でクロスコーダをトレーニングし、これらの問題を大幅に軽減し、より真にチャット特化され、高度に解釈可能な概念を見つけます。
- 参考スコア(独自算出の注目度): 1.253890114209776
- License:
- Abstract: Model diffing is the study of how fine-tuning changes a model's representations and internal algorithms. Many behaviours of interest are introduced during fine-tuning, and model diffing offers a promising lens to interpret such behaviors. Crosscoders are a recent model diffing method that learns a shared dictionary of interpretable concepts represented as latent directions in both the base and fine-tuned models, allowing us to track how concepts shift or emerge during fine-tuning. Notably, prior work has observed concepts with no direction in the base model, and it was hypothesized that these model-specific latents were concepts introduced during fine-tuning. However, we identify two issues which stem from the crosscoders L1 training loss that can misattribute concepts as unique to the fine-tuned model, when they really exist in both models. We develop Latent Scaling to flag these issues by more accurately measuring each latent's presence across models. In experiments comparing Gemma 2 2B base and chat models, we observe that the standard crosscoder suffers heavily from these issues. Building on these insights, we train a crosscoder with BatchTopK loss and show that it substantially mitigates these issues, finding more genuinely chat-specific and highly interpretable concepts. We recommend practitioners adopt similar techniques. Using the BatchTopK crosscoder, we successfully identify a set of genuinely chat-specific latents that are both interpretable and causally effective, representing concepts such as $\textit{false information}$ and $\textit{personal question}$, along with multiple refusal-related latents that show nuanced preferences for different refusal triggers. Overall, our work advances best practices for the crosscoder-based methodology for model diffing and demonstrates that it can provide concrete insights into how chat tuning modifies language model behavior.
- Abstract(参考訳): モデルディファリング(英: Model diffing)は、モデル表現と内部アルゴリズムが微調整によってどのように変化するかを研究する学問である。
多くの興味ある振る舞いは微調整中に導入され、モデル回折はそのような振る舞いを解釈するための有望なレンズを提供する。
クロスコーダは、ベースモデルと微調整モデルの両方において遅延方向として表現される解釈可能な概念の共用辞書を学習し、微調整中の概念のシフトや出現の追跡を可能にする。
特に、先行研究はベースモデルに方向のない概念を観察しており、これらのモデル固有の潜伏剤は微調整時に導入された概念であると仮定された。
しかし、両モデルに実際に存在するとき、概念を微調整モデルに固有のものと誤帰できるクロスコーダL1の学習損失に起因する2つの問題を特定する。
モデルをまたいだ各潜伏者の存在をより正確に測定することで、これらの問題にフラグを付けるために、潜伏者スケーリングを開発します。
Gemma 2の2Bベースとチャットモデルを比較した実験では、標準のクロスコーダがこれらの問題に大きく影響していることが観察された。
これらの洞察に基づいて、BatchTopK損失でクロスコーダをトレーニングし、これらの問題を著しく軽減し、より真にチャット特化され、高度に解釈可能な概念を見つけることを示す。
同様の手法を採用することを推奨する。
BatchTopKのクロスコーダを使って、$\textit{false information}$や$\textit{personal question}$といった概念を表現しながら、解釈可能かつ因果的に有効であるチャット固有の潜伏語と、異なる拒絶トリガに対するニュアンスな嗜好を示す複数の拒絶関連潜伏語の両方を識別することに成功した。
全体として、モデル拡散のためのクロスコーダベースの方法論のベストプラクティスを進歩させ、チャットチューニングが言語モデルの振る舞いをどう修正するか、具体的な洞察を提供することができることを示した。
関連論文リスト
- Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。
我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。
モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文 参考訳(メタデータ) (2024-10-08T14:22:40Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Investigating the Robustness of Modelling Decisions for Few-Shot Cross-Topic Stance Detection: A Preregistered Study [3.9394231697721023]
本稿では,数発の姿勢検出のための動作選択の堅牢性について検討する。
我々は、スタンスタスク定義(Pro/ConとSide Side Stance)と、2つのLLMアーキテクチャ(ビエンコーディングとクロスエンコーディング)を比較し、自然言語推論の知識を追加します。
初期の研究から得られた仮説や主張のいくつかは確認できますが、もっと矛盾した結果をもたらすものもあります。
論文 参考訳(メタデータ) (2024-04-05T09:48:00Z) - Dual Path Modeling for Semantic Matching by Perceiving Subtle Conflicts [14.563722352134949]
トランスフォーマーベースの事前学習モデルではセマンティックマッチングが大幅に改善されている。
既存のモデルでは微妙な違いを捉える能力が不足している。
本稿では、微妙な違いを知覚するモデルの能力を高めるために、新しいデュアルパスモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-24T09:29:55Z) - Meaningfully Explaining a Model's Mistakes [16.521189362225996]
本稿では,概念的説明スコア (CES) の体系的アプローチを提案する。
CESでは、分類器が特定のテストサンプルに対して、人間の理解可能な概念で間違いを犯す理由を説明している。
また、意図的かつ既知の刺激的な相関関係を持つ新しいモデルをトレーニングしています。
論文 参考訳(メタデータ) (2021-06-24T01:49:55Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Concept Bottleneck Models [79.91795150047804]
現在の最先端モデルは、通常「骨の支柱の存在」のような概念の操作をサポートしない。
トレーニング時に提供される概念を最初に予測し、ラベルを予測するためにこれらの概念を使用するという古典的な考え方を再考する。
X線グレーディングと鳥の識別では、概念ボトルネックモデルが標準のエンドツーエンドモデルと競合する精度を達成する。
論文 参考訳(メタデータ) (2020-07-09T07:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。