論文の概要: ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws
- arxiv url: http://arxiv.org/abs/2408.08310v1
- Date: Thu, 15 Aug 2024 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:05:43.258071
- Title: ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws
- Title(参考訳): ScalingFilter: スケーリング法則の逆利用によるデータ品質の評価
- Authors: Ruihang Li, Yixuan Wei, Miaosen Zhang, Nenghai Yu, Han Hu, Houwen Peng,
- Abstract要約: ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
- 参考スコア(独自算出の注目度): 67.59263833387536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality data is crucial for the pre-training performance of large language models. Unfortunately, existing quality filtering methods rely on a known high-quality dataset as reference, which can introduce potential bias and compromise diversity. In this paper, we propose ScalingFilter, a novel approach that evaluates text quality based on the perplexity difference between two language models trained on the same data, thereby eliminating the influence of the reference dataset in the filtering process. An theoretical analysis shows that ScalingFilter is equivalent to an inverse utilization of scaling laws. Through training models with 1.3B parameters on the same data source processed by various quality filters, we find ScalingFilter can improve zero-shot performance of pre-trained models in downstream tasks. To assess the bias introduced by quality filtering, we introduce semantic diversity, a metric of utilizing text embedding models for semantic representations. Extensive experiments reveal that semantic diversity is a reliable indicator of dataset diversity, and ScalingFilter achieves an optimal balance between downstream performance and semantic diversity.
- Abstract(参考訳): 高品質なデータは、大規模言語モデルの事前学習のパフォーマンスに不可欠である。
残念ながら、既存の品質フィルタリング手法は、既知の高品質なデータセットを参照として頼りにしており、潜在的なバイアスをもたらし、多様性を損なう可能性がある。
本論文では,同じデータに基づいて訓練された2つの言語モデル間の相違点に基づいてテキスト品質を評価する新しい手法であるScalingFilterを提案する。
理論的解析によれば、ScalingFilterはスケーリング法則の逆利用と等価である。
さまざまな品質フィルタで処理された同一データソース上の1.3Bパラメータを持つトレーニングモデルを通じて、下流タスクにおける事前トレーニングされたモデルのゼロショットパフォーマンスを改善することができる。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
大規模な実験によると、セマンティックな多様性はデータセットの多様性の信頼性を示す指標であり、ScalingFilterは下流のパフォーマンスとセマンティックな多様性の最適なバランスを達成する。
関連論文リスト
- The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph [45.51085356985464]
文をn-gramにリンクする二部グラフとしてデータセットを表現する新しい方法であるGraphFilterを導入する。
この表現は文と言語パターンの関係を効果的に捉え、n-gramの多様性を高める文の選択を容易にする。
GraphFilterは、高優先度の文を反復的に選択し、カバーされたn-gramを取り除き、二部グラフを更新し、進化するデータランドスケープを反映するように優先順位を再計算する。
論文 参考訳(メタデータ) (2024-10-16T11:16:34Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Tradeoffs in Resampling and Filtering for Imbalanced Classification [2.3605348648054454]
トレーニングデータを選択する異なる方法が、効率と効率のトレードオフをもたらすことを示す。
また、高度に不均衡なケースでは、ファーストパス検索モデルを用いたテストデータのフィルタリングが、トレーニングデータを選択するのと同じくらい、モデルの性能にとって重要であることも確認した。
論文 参考訳(メタデータ) (2022-08-31T21:40:47Z) - An Empirical Exploration in Quality Filtering of Text Data [0.0]
GPT型言語モデルにおいて、アグレッシブフィルタリングは、幅広い下流タスクにおけるモデル品質の低下につながることが判明した。
これは、プロキシメトリックに対して十分に強く最適化することが、真の目的に対するパフォーマンスを損なうためである、と推測する。
論文 参考訳(メタデータ) (2021-09-02T04:02:51Z) - Mitigating harm in language models with conditional-likelihood
filtration [4.002298833349518]
本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。
このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。
我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
論文 参考訳(メタデータ) (2021-08-04T22:18:10Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。