論文の概要: Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations
- arxiv url: http://arxiv.org/abs/2503.15573v2
- Date: Fri, 16 May 2025 06:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.563208
- Title: Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations
- Title(参考訳): 単意味神経活動による指導調整のためのタスク特異的データ選択
- Authors: Da Ma, Gonghu Shang, Zhi Chen, Libo Qin, Yijie Luo, Lei Pan, Shuai Fan, Lu Chen, Kai Yu,
- Abstract要約: 重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく方法や、より安定した分布アライメント方法が含まれる。
タスク関連データをよりよく識別するために、この分野に専用の類似度指標を導入します。
- 参考スコア(独自算出の注目度): 19.25205110583291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning improves the ability of large language models (LLMs) to follow diverse human instructions, but achieving strong performance on specific target tasks remains challenging. A critical bottleneck is selecting the most relevant data to maximize task-specific performance. Existing data selection approaches include unstable influence-based methods and more stable distribution alignment methods, the latter of which critically rely on the underlying sample representation. In practice, most distribution alignment methods, from shallow features (e.g., BM25) to neural embeddings (e.g., BGE, LLM2Vec), may fail to capture how the model internally processes samples. To bridge this gap, we adopt a model-centric strategy in which each sample is represented by its neuronal activation pattern in the model, directly reflecting internal computation. However, directly using raw neuron activations leads to spurious similarity between unrelated samples due to neuron polysemanticity, where a single neuron may respond to multiple, unrelated concepts. To address this, we employ sparse autoencoders to disentangle polysemantic activations into sparse, monosemantic representations, and introduce a dedicated similarity metric for this space to better identify task-relevant data. Comprehensive experiments across multiple instruction datasets, models, tasks, and selection ratios show that our approach consistently outperforms existing data selection baselines in both stability and task-specific performance.
- Abstract(参考訳): インストラクションチューニングは、多種多様な人間の指示に従う大きな言語モデル(LLM)の能力を向上するが、特定のタスクに対して強力なパフォーマンスを達成することは依然として困難である。
重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく手法や、より安定した分布アライメント手法が含まれており、後者は、基礎となるサンプル表現に大きく依存している。
実際には、浅い特徴(例えば、BM25)から神経埋め込み(例えば、BGE、LLM2Vec)まで、ほとんどの分布アライメント手法は、モデルが内部でどのようにサンプルを処理するかを捉えるのに失敗する可能性がある。
このギャップを埋めるために、各サンプルがモデル内のニューロン活性化パターンによって表現され、内部計算を直接反映するモデル中心の戦略を採用する。
しかし、生のニューロンの活性化を直接使用すると、単一のニューロンが複数の無関係な概念に反応するニューロンの多意味性により、無関係なサンプル間で急激な類似性が生じる。
これを解決するために、スパースオートエンコーダを用いて、多節的アクティベーションをスパースな単節的表現に分解し、タスク関連データをよりよく識別する専用類似度指標を導入する。
複数の命令データセット、モデル、タスク、選択比率の総合的な実験は、我々のアプローチが安定性とタスク固有のパフォーマンスの両方において、既存のデータ選択ベースラインを一貫して上回っていることを示している。
関連論文リスト
- COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning [19.173177969412656]
数発の模倣学習において,COLLAGEはCOLLective Data AGgrEgationの手法である。
Collageは適応的なレイトフュージョン機構を使用して、複数のキューのタスク固有の組み合わせに基づいて、関連するデモの選択をガイドする。
コラージュは最先端の検索とマルチタスク学習の手法を10タスクで5.1%、現実世界では6タスクで16.6%上回っている。
論文 参考訳(メタデータ) (2025-08-02T01:23:09Z) - Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Supervised Feature Selection with Neuron Evolution in Sparse Neural
Networks [17.12834153477201]
スパースニューラルネットワークを用いた資源効率の高い新しい特徴選択法を提案する。
スクラッチからトレーニングされたスパースニューラルネットワークの入力層から、不定形的特徴を徐々に抜き取ることにより、NeuroFSは、機能の情報的サブセットを効率的に導き出す。
NeuroFSは、最先端の教師付き特徴選択モデルの中で最上位のスコアを達成している。
論文 参考訳(メタデータ) (2023-03-10T17:09:55Z) - Graph Convolutional Network-based Feature Selection for High-dimensional
and Low-sample Size Data [4.266990593059533]
本稿では,GRAph Convolutional nEtwork feature Selector (GRACES) という深層学習に基づく手法を提案する。
GRACESは、合成データセットと実世界のデータセットの両方において、他の特徴選択方法よりも優れているという実証的な証拠を実証する。
論文 参考訳(メタデータ) (2022-11-25T14:46:36Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Optimal transport framework for efficient prototype selection [21.620708125860066]
最適なトランスポート(ot)ベースのフレームワークを開発し、与えられたターゲットデータセットを最もよく表現する有益な例を選定する。
目的関数は部分モジュラリティの重要な特性を享受し、計算速度と決定論的近似保証を持つ並列化可能なグリーディ法を提案する。
論文 参考訳(メタデータ) (2021-03-18T10:50:14Z) - Feature Selection Based on Sparse Neural Network Layer with Normalizing
Constraints [0.0]
本論文では,2つの制約を導入したニューラルネットワークに基づく特徴選択手法を提案する。
その結果,Sparse Neural Network Layer with Normalizing Constraints (SNEL-FS) に基づく特徴選択は,従来の FS 方式に比べて重要な特徴の選択が可能であり,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-12-11T14:14:33Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。