論文の概要: Rethinking Data Selection at Scale: Random Selection is Almost All You Need
- arxiv url: http://arxiv.org/abs/2410.09335v1
- Date: Sat, 12 Oct 2024 02:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:38.003378
- Title: Rethinking Data Selection at Scale: Random Selection is Almost All You Need
- Title(参考訳): データ選択を大規模に再考する - ランダム選択は必要なすべて
- Authors: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin,
- Abstract要約: 教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
- 参考スコア(独自算出の注目度): 39.14807071480125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is crucial for aligning Large Language Models (LLMs) with human instructions. The primary goal during SFT is to select a small yet representative subset of training data from the larger pool, such that fine-tuning with this subset achieves results comparable to or even exceeding those obtained using the entire dataset. However, most existing data selection techniques are designed for small-scale data pools, which fail to meet the demands of real-world SFT scenarios. In this paper, we replicated several self-scoring methods those that do not rely on external model assistance on two million scale datasets, and found that nearly all methods struggled to significantly outperform random selection when dealing with such large-scale data pools. Moreover, our comparisons suggest that, during SFT, diversity in data selection is more critical than simply focusing on high quality data. We also analyzed the limitations of several current approaches, explaining why they perform poorly on large-scale datasets and why they are unsuitable for such contexts. Finally, we found that filtering data by token length offers a stable and efficient method for improving results. This approach, particularly when training on long text data, proves highly beneficial for relatively weaker base models, such as Llama3.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、Large Language Models (LLM) とヒューマンインストラクションの整合に不可欠である。
SFTの第一の目的は、このサブセットによる微調整がデータセット全体を使用した結果と同等かそれ以上の結果が得られるように、より大きなプールから、トレーニングデータの小さいが代表的なサブセットを選択することである。
しかし、既存のデータ選択技術のほとんどは、現実のSFTシナリオの要求を満たさない小規模のデータプール用に設計されている。
本稿では,200万の大規模データセットに外部モデル支援を依存しない複数の自己スコア手法を再現し,このような大規模データプールを扱う場合,ほとんどすべての手法がランダム選択を大幅に上回ることに苦慮していることを確認した。
さらに,SFTでは,データ選択の多様性が,単に高品質なデータに注目するよりも重要であることが示唆された。
また、大規模データセットに不適合な理由と、このような状況に適さない理由について、現在のいくつかのアプローチの限界を分析した。
最後に、トークン長によるデータフィルタリングは、結果を改善するための安定かつ効率的な方法であることがわかった。
このアプローチ、特に長いテキストデータでトレーニングする場合、Llama3のような比較的弱いベースモデルにとって非常に有益である。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - SmallToLarge (S2L): Scalable Data Selection for Fine-tuning Large
Language Models by Summarizing Training Trajectories of Small Models [25.354520724493845]
教師付き微調整のための効率的でスケーラブルなデータ選択手法を提案する。
S2Lは数学的な問題解決のために,SFTのデータ効率を著しく向上させることを示した。
また,S2Lは対象モデルよりも40倍小さい参照モデルを用いてデータ選択を行うことができることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:45:33Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。