論文の概要: Harnessing Diversity for Important Data Selection in Pretraining Large Language Models
- arxiv url: http://arxiv.org/abs/2409.16986v2
- Date: Sat, 5 Oct 2024 06:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:10:14.597023
- Title: Harnessing Diversity for Important Data Selection in Pretraining Large Language Models
- Title(参考訳): 大規模言語モデルの事前学習における重要データ選択のための多様性の調和
- Authors: Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ju Fan, Ye Yuan, Guoren Wang, Conghui He,
- Abstract要約: textttQuadは、データの影響を利用して、最先端の事前トレーニング結果を達成することによって、品質と多様性の両方を考慮する。
多様性のために、textttQuadはデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
- 参考スコア(独自算出の注目度): 39.89232835928945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection is of great significance in pre-training large language models, given the variation in quality within the large-scale available training corpora. To achieve this, researchers are currently investigating the use of data influence to measure the importance of data instances, $i.e.,$ a high influence score indicates that incorporating this instance to the training set is likely to enhance the model performance. Consequently, they select the top-$k$ instances with the highest scores. However, this approach has several limitations. (1) Computing the influence of all available data is time-consuming. (2) The selected data instances are not diverse enough, which may hinder the pre-trained model's ability to generalize effectively to various downstream tasks. In this paper, we introduce \texttt{Quad}, a data selection approach that considers both quality and diversity by using data influence to achieve state-of-the-art pre-training results. In particular, noting that attention layers capture extensive semantic details, we have adapted the accelerated $iHVP$ computation methods for attention layers, enhancing our ability to evaluate the influence of data, $i.e.,$ its quality. For the diversity, \texttt{Quad} clusters the dataset into similar data instances within each cluster and diverse instances across different clusters. For each cluster, if we opt to select data from it, we take some samples to evaluate the influence to prevent processing all instances. To determine which clusters to select, we utilize the classic Multi-Armed Bandit method, treating each cluster as an arm. This approach favors clusters with highly influential instances (ensuring high quality) or clusters that have been selected less frequently (ensuring diversity), thereby well balancing between quality and diversity.
- Abstract(参考訳): データの選択は、大規模で利用可能なトレーニングコーパスの品質の変化を考えると、大規模言語モデルの事前学習において非常に重要である。
これを実現するために、研究者は現在、データインスタンスの重要性を測定するためにデータインフルエンサーの利用を調査している。
その結果、最高スコアの上位$kのインスタンスを選択する。
しかし、このアプローチにはいくつかの制限がある。
1) 利用可能なすべてのデータの影響を計算するのは時間を要する。
2) 選択したデータインスタンスは十分に多様性がないため、事前訓練されたモデルの様々な下流タスクに効果的に一般化する能力を阻害する可能性がある。
本稿では、データの影響を利用して、品質と多様性を両立させるデータ選択手法である「texttt{Quad}」を紹介する。
特に、注意層が広範囲のセマンティックな詳細を捉えていることに注意して、アクセラレーションされた$iHVP$計算方法を注意層に適用し、データの影響を評価する能力、すなわち、$iHVP$の品質を向上しました。
多様性のために、 \texttt{Quad}はデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
各クラスタに対して、データを選択した場合、すべてのインスタンスの処理を防止するために、影響を評価するためにいくつかのサンプルを取ります。
選択するクラスタを決定するために,従来のマルチアーマッドバンド方式を用いて,各クラスタをアームとして扱う。
このアプローチでは、非常に影響力のあるインスタンス(高品質の保証)や、より頻度の低いクラスタ(多様性の保証)のクラスタが好まれるため、品質と多様性のバランスが良好になる。
関連論文リスト
- Dual-Criterion Model Aggregation in Federated Learning: Balancing Data Quantity and Quality [0.0]
フェデレートラーニング(FL)は、プライバシ保護のための協調学習の鍵となる方法の1つとなっている。
集約アルゴリズムは、システムの有効性と安全性を確保する上で最も重要なコンポーネントの1つとして認識される。
本研究では,クライアントノードからのデータ量と品質を含む新しい二項重み付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T14:09:16Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。