From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models
Abstractの概要
本論文は、Sparse Autoencoders(SAEs)を活用して大規模言語モデル内の因果的に検証されたタスク固有の特徴を特定し、それをファインチューニング用の学習データ選択に利用するフレームワーク「Interpretability-Guided Data Selection(IGDS)」を提案している。このフレームワークは2段階で動作する:第1段階では高頻度リコールと介入フィルタリングによる因果的検証を通じてタスク特徴を特定し、第2段階では検証済みタスク特徴の活性化の大きさを集約したFeature-Resonant Scoreにより候補学習データをスコアリングする。IGDSは数学的推論、要約、機械翻訳のタスクにおいて、Gemma-2-2B、LLaMA-3.1-8B、Qwen3-8Bモデルで評価された。学習データの50%のみを使用して、IGDSは全9つのモデル・タスク構成において全データセットでのファインチューニングを上回り、比較対象のデータ選択ベースラインを一貫して凌駕した。
新規性
主な新規性は、外部の品質や多様性ヒューリスティクスに頼るのではなく、SAEsで抽出し標的活性化増幅により確認された因果的に検証されたモデル内部特徴を学習データ選択の基盤として使用する点にある。また、因果的特徴同定と特徴ベースのデータスコアリングの2段階パイプラインを通じて、メカニスティック解釈可能性分析を下流の最適化に明示的に接続している点も特徴的である。
成果
全9つのモデル・タスク構成において、IGDSはデータの50%のみを使用しながら、比較対象のデータ選択ベースライン(Random、Loss、IFD、ZIP)を上回った。また、全ての設定で全データセットによるファインチューニングの性能を超え、最大の改善はGemma-2-2Bの数学タスクにおける+17.4%の相対的改善であった。アブレーション研究により頻度リコールと因果フィルタリングの両方が必要な構成要素であることが確認され、安定性分析では上位のタスク特徴が異なる特定ソースデータセット間で一貫していることが示された。
論文の注目点
- IGDSは粗から細へのプロセスでタスク関連特徴を特定する:高頻度リコールにより膨大なSAE特徴空間を小さな候補セット(多くの場合、全特徴の数ベーシスポイント程度)にフィルタリングし、その後標的特徴増幅による因果的検証を行う。
- 学習データは検証済みタスク特徴の活性化を集約したFeature-Resonant Scoreによりランク付けされ、全テスト構成においてデータの50%のみで全データセット学習を上回るデータ効率の高いファインチューニングを実現する。
- 安定性分析により、特定されたタスク特徴(例:Gemma-2-2Bの上位数学特徴F_14,11575)が異なるソースデータセット間で一貫していることが示され、アブレーション研究によりパイプラインの両段階が最適な性能に必要であることが確認された。