論文の概要: Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations
- arxiv url: http://arxiv.org/abs/2503.15573v2
- Date: Fri, 16 May 2025 06:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.563208
- Title: Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations
- Title(参考訳): 単意味神経活動による指導調整のためのタスク特異的データ選択
- Authors: Da Ma, Gonghu Shang, Zhi Chen, Libo Qin, Yijie Luo, Lei Pan, Shuai Fan, Lu Chen, Kai Yu,
- Abstract要約: 重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく方法や、より安定した分布アライメント方法が含まれる。
タスク関連データをよりよく識別するために、この分野に専用の類似度指標を導入します。
- 参考スコア(独自算出の注目度): 19.25205110583291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning improves the ability of large language models (LLMs) to follow diverse human instructions, but achieving strong performance on specific target tasks remains challenging. A critical bottleneck is selecting the most relevant data to maximize task-specific performance. Existing data selection approaches include unstable influence-based methods and more stable distribution alignment methods, the latter of which critically rely on the underlying sample representation. In practice, most distribution alignment methods, from shallow features (e.g., BM25) to neural embeddings (e.g., BGE, LLM2Vec), may fail to capture how the model internally processes samples. To bridge this gap, we adopt a model-centric strategy in which each sample is represented by its neuronal activation pattern in the model, directly reflecting internal computation. However, directly using raw neuron activations leads to spurious similarity between unrelated samples due to neuron polysemanticity, where a single neuron may respond to multiple, unrelated concepts. To address this, we employ sparse autoencoders to disentangle polysemantic activations into sparse, monosemantic representations, and introduce a dedicated similarity metric for this space to better identify task-relevant data. Comprehensive experiments across multiple instruction datasets, models, tasks, and selection ratios show that our approach consistently outperforms existing data selection baselines in both stability and task-specific performance.
- Abstract(参考訳): インストラクションチューニングは、多種多様な人間の指示に従う大きな言語モデル(LLM)の能力を向上するが、特定のタスクに対して強力なパフォーマンスを達成することは依然として困難である。
重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく手法や、より安定した分布アライメント手法が含まれており、後者は、基礎となるサンプル表現に大きく依存している。
実際には、浅い特徴(例えば、BM25)から神経埋め込み(例えば、BGE、LLM2Vec)まで、ほとんどの分布アライメント手法は、モデルが内部でどのようにサンプルを処理するかを捉えるのに失敗する可能性がある。
このギャップを埋めるために、各サンプルがモデル内のニューロン活性化パターンによって表現され、内部計算を直接反映するモデル中心の戦略を採用する。
しかし、生のニューロンの活性化を直接使用すると、単一のニューロンが複数の無関係な概念に反応するニューロンの多意味性により、無関係なサンプル間で急激な類似性が生じる。
これを解決するために、スパースオートエンコーダを用いて、多節的アクティベーションをスパースな単節的表現に分解し、タスク関連データをよりよく識別する専用類似度指標を導入する。
複数の命令データセット、モデル、タスク、選択比率の総合的な実験は、我々のアプローチが安定性とタスク固有のパフォーマンスの両方において、既存のデータ選択ベースラインを一貫して上回っていることを示している。
関連論文リスト
- Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Supervised Feature Selection with Neuron Evolution in Sparse Neural
Networks [17.12834153477201]
スパースニューラルネットワークを用いた資源効率の高い新しい特徴選択法を提案する。
スクラッチからトレーニングされたスパースニューラルネットワークの入力層から、不定形的特徴を徐々に抜き取ることにより、NeuroFSは、機能の情報的サブセットを効率的に導き出す。
NeuroFSは、最先端の教師付き特徴選択モデルの中で最上位のスコアを達成している。
論文 参考訳(メタデータ) (2023-03-10T17:09:55Z) - Graph Convolutional Network-based Feature Selection for High-dimensional
and Low-sample Size Data [4.266990593059533]
本稿では,GRAph Convolutional nEtwork feature Selector (GRACES) という深層学習に基づく手法を提案する。
GRACESは、合成データセットと実世界のデータセットの両方において、他の特徴選択方法よりも優れているという実証的な証拠を実証する。
論文 参考訳(メタデータ) (2022-11-25T14:46:36Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Feature Selection Based on Sparse Neural Network Layer with Normalizing
Constraints [0.0]
本論文では,2つの制約を導入したニューラルネットワークに基づく特徴選択手法を提案する。
その結果,Sparse Neural Network Layer with Normalizing Constraints (SNEL-FS) に基づく特徴選択は,従来の FS 方式に比べて重要な特徴の選択が可能であり,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-12-11T14:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。