論文の概要: AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection
- arxiv url: http://arxiv.org/abs/2505.07293v1
- Date: Mon, 12 May 2025 07:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.289458
- Title: AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection
- Title(参考訳): 注意の影響: 弱-強勢事前学習データ選択における注意頭の影響
- Authors: Kai Hua, Steven Wu, Ge Zhang, Ke Shen,
- Abstract要約: 本研究では、推論集約型事前学習データを特定するために、注意の影響を提案する。
我々のアプローチは、簡単な注意頭マスキング操作により、訓練済みの小さな言語モデルを強力なデータセレクタとして機能させることができる。
実験結果から,知識集約型および推論重度ベンチマークにおいて,1.4ppから3.5ppまでの大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 9.555955025064895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been growing interest in collecting reasoning-intensive pretraining data to improve LLMs' complex reasoning ability. Prior approaches typically rely on supervised classifiers to identify such data, which requires labeling by humans or LLMs, often introducing domain-specific biases. Due to the attention heads being crucial to in-context reasoning, we propose AttentionInfluence, a simple yet effective, training-free method without supervision signal. Our approach enables a small pretrained language model to act as a strong data selector through a simple attention head masking operation. Specifically, we identify retrieval heads and compute the loss difference when masking these heads. We apply AttentionInfluence to a 1.3B-parameter dense model to conduct data selection on the SmolLM corpus of 241B tokens, and mix the SmolLM corpus with the selected subset comprising 73B tokens to pretrain a 7B-parameter dense model using 1T training tokens and WSD learning rate scheduling. Our experimental results demonstrate substantial improvements, ranging from 1.4pp to 3.5pp, across several knowledge-intensive and reasoning-heavy benchmarks (i.e., MMLU, MMLU-Pro, AGIEval-en, GSM8K, and HumanEval). This demonstrates an effective weak-to-strong scaling property, with small models improving the final performance of larger models-offering a promising and scalable path for reasoning-centric data selection.
- Abstract(参考訳): 近年,LLMの複雑な推論能力を向上させるために,推論集約型事前学習データ収集への関心が高まっている。
従来のアプローチでは、そのようなデータを特定するには、典型的には教師付き分類器を頼りにしており、それは人間やLLMによるラベル付けを必要とし、しばしばドメイン固有のバイアスを導入している。
注意頭が文脈内推論に欠かせないため,教師信号のない,シンプルで効果的なトレーニング不要な手法であるAttentionInfluenceを提案する。
我々のアプローチは、簡単な注意頭マスキング操作により、訓練済みの小さな言語モデルを強力なデータセレクタとして機能させることができる。
具体的には、検索ヘッドを識別し、これらのヘッドをマスキングする際の損失差を計算する。
我々は1.3Bパラメータ密度モデルに適用し、241BトークンのSmolLMコーパス上でデータ選択を行い、73Bトークンからなる選択されたサブセットと組み合わせて、7Bパラメータ密度モデルを1TトレーニングトークンとWSD学習率スケジューリングを用いて事前訓練する。
実験の結果,知識集約型および推論重大ベンチマーク(MMLU,MMLU-Pro,AGIEval-en,GSM8K,HumanEval)に対して,1.4ppから3.5ppまでの大幅な改善が得られた。
このことは、より大規模なモデルの最終性能を改善する小さなモデルによって、推論中心のデータ選択のための有望でスケーラブルなパスを、効果的に弱から強のスケーリング特性を示す。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Electroencephalogram Emotion Recognition via AUC Maximization [0.0]
不均衡データセットは神経科学、認知科学、医学診断などの分野で大きな課題を提起する。
本研究は,DEAPデータセットにおけるライキングラベルを例として,イシュークラスの不均衡に対処する。
論文 参考訳(メタデータ) (2024-08-16T19:08:27Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。