論文の概要: From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.25167v1
- Date: Tue, 28 Apr 2026 03:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.692131
- Title: From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models
- Title(参考訳): InsightからActionへ:大規模言語モデルにおける解釈可能性に基づくデータ選択のための新しいフレームワーク
- Authors: Ling Shi, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Yangyang Liu, Linlong Xu, Longyue Wang, Deyi Xiong, Weihua Luo,
- Abstract要約: Interpretability-Guided Data Selection (IGDS) は、まず周波数リコールと干渉フィルタリングによって因果タスクの特徴を識別するフレームワークである。
我々は,数学的推論,要約,翻訳タスクに関するIGDSをGemma-2,LLaMA-3.1,Qwen3モデルで検証する。
- 参考スコア(独自算出の注目度): 73.72877445629383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While mechanistic interpretability tools like Sparse Autoencoders (SAEs) can uncover meaningful features within Large Language Models (LLMs), a critical gap remains in transforming these insights into practical actions for model optimization. We bridge this gap with the hypothesis that data selection guided by a model's internal task features is a effective training strategy. Inspired by this, we propose Interpretability-Guided Data Selection (IGDS), a framework that first identifies these causal task features through frequency recall and interventional filtering, then selects ``Feature-Resonant Data'' that maximally activates task features for fine-tuning. We validate IGDS on mathematical reasoning, summarization, and translation tasks within Gemma-2, LLaMA-3.1, and Qwen3 models. Our experiments demonstrate exceptional data efficiency: on the Math task, IGDS surpasses full-dataset fine-tuning by a remarkable 17.4% on Gemma-2-2B while using only 50% of the data, and outperforms established baselines focused on data quality and diversity. Analysis confirms a strong positive correlation between feature amplification and task performance improvement. IGDS thus provides a direct and effective framework to enhance LLMs by leveraging their internal mechanisms, validating our core hypothesis.
- Abstract(参考訳): Sparse Autoencoders (SAEs)のような機械的解釈可能性ツールは、Large Language Models (LLMs)内で有意義な特徴を明らかにすることができるが、これらの洞察をモデル最適化のための実践的なアクションに変換する上で重要なギャップは残る。
このギャップを、モデルの内部タスク特徴によって導かれるデータ選択が効果的なトレーニング戦略であるという仮説で埋める。
そこで我々は,まず,これらの因果的タスクの特徴を周波数リコールと干渉フィルタリングによって識別するフレームワークである Interpretability-Guided Data Selection (IGDS) を提案し,次に,微調整のためのタスク機能を最大限に活性化する ``Feature-Resonant Data'' を選択する。
我々は,数学的推論,要約,翻訳タスクに関するIGDSをGemma-2,LLaMA-3.1,Qwen3モデルで検証する。
実験では,データ品質と多様性に焦点をあてた定評あるベースラインをわずか50%使用しながら,全データセットの微調整をGemma-2-2Bで17.4%上回った。
分析は、特徴増幅とタスクパフォーマンス改善の強い正の相関を裏付ける。
IGDSは、内部メカニズムを活用し、コア仮説を検証することでLCMを強化するための、直接的で効果的なフレームワークを提供する。
関連論文リスト
- Neuron-Aware Data Selection In Instruction Tuning For Large Language Models [69.08560711834848]
インストラクションチューニング(IT)は、大規模言語モデル(LLM)の強力な能力を解放するための効果的なアプローチであることが証明されている。
近年の研究では、過剰なITデータがLCMのパフォーマンスを低下させる可能性がある一方で、高品質なITデータの小さなサブセットを慎重に選択することで、その能力を著しく向上させることができることが示されている。
我々はNAITと呼ばれる新しい効率的なフレームワークを提案し、ITデータセットから最も効率的なサブセットデータを特定する。
論文 参考訳(メタデータ) (2026-03-13T17:39:03Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Agent Skill Acquisition for Large Language Models via CycleQD [2.749898166276853]
CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。
各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。
CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2024-10-16T20:27:15Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。