論文の概要: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training
- arxiv url: http://arxiv.org/abs/2502.00761v2
- Date: Tue, 18 Feb 2025 03:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:19.830400
- Title: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training
- Title(参考訳): FIRE: 効果的な事前トレーニングのためのデータ品質レーティングの柔軟な統合
- Authors: Liangyu Xu, Xuemiao Zhang, Feiyu Duan, Sirui Wang, Jingang Wang, Xunliang Cai,
- Abstract要約: 複数のデータ品質レーダを統合するフレキシブルなフレームワークであるFIREを提案する。
Fireは複数の品質信号を統一されたスペースに整合させ、さまざまなデータ品質レーダを統合して、各データポイントに対して包括的な品質信号を提供する。
SlimPajamaデータセットの実験では、FIREは他のデータ選択方法よりも優れています。
- 参考スコア(独自算出の注目度): 13.182375437229519
- License:
- Abstract: Selecting high-quality data can significantly improve the pretraining efficiency of large language models (LLMs). Existing methods generally rely on heuristic techniques and single-quality signals, limiting their ability to evaluate data quality comprehensively. In this work, we propose FIRE, a flexible and scalable framework for integrating multiple data quality raters, which allows for a comprehensive assessment of data quality across various dimensions. FIRE aligns multiple quality signals into a unified space, and integrates diverse data quality raters to provide a comprehensive quality signal for each data point. Further, we introduce a progressive data selection scheme based on FIRE that iteratively refines the selection of high-quality data points. Experiments on the SlimPajama dataset reveal that FIRE outperforms other data selection methods and significantly enhances the pretrained model across a wide range of downstream tasks, with a 2.9% average performance improvement over Random and reducing the FLOPs necessary to achieve a certain performance level by more than half.
- Abstract(参考訳): 高品質なデータを選択することで、大規模言語モデル(LLM)の事前学習効率を大幅に向上させることができる。
既存の手法は概してヒューリスティックな手法と単一品質の信号に依存し、データ品質を包括的に評価する能力を制限する。
本研究では,複数のデータ品質レーダを統合するフレキシブルでスケーラブルなフレームワークであるFIREを提案する。
FIREは複数の品質信号を統一された空間に整列し、多様なデータ品質レーダを統合し、各データポイントに対して包括的な品質信号を提供する。
さらに、FIREに基づくプログレッシブデータ選択方式を導入し、高品質なデータポイントの選択を反復的に洗練する。
SlimPajamaデータセットの実験では、FIREは他のデータ選択方法よりも優れており、Randomよりも2.9%の平均的なパフォーマンス改善と、特定のパフォーマンスレベルを達成するために必要なFLOPを半分以上削減することで、広範囲の下流タスクで事前訓練されたモデルを大幅に向上している。
関連論文リスト
- Quality over Quantity: Boosting Data Efficiency Through Ensembled Multimodal Data Curation [4.030723722142048]
本稿では,Webcrawlデータセットの非構造的および不均一性に関わる課題に対処する。
先進的な学習駆動型アプローチである DAta ThroUgh Multimodal Operators (EcoDatum) のアンサンブルキュレーションを導入する。
EcoDatumは、弱監督アンサンブルフレームワーク内に、様々な単一モーダルおよびマルチモーダルデータキュレーション演算子を戦略的に統合する。
DataCompのリーダーボードでは、38のさまざまな評価データセットの中で、平均的なパフォーマンススコアが0.182だった。
論文 参考訳(メタデータ) (2025-02-12T08:40:57Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Diversity Matters for Robust Instruction Tuning [129.83575908023312]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。
データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。
いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-11-21T19:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。