論文の概要: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training
- arxiv url: http://arxiv.org/abs/2502.00761v3
- Date: Thu, 22 May 2025 09:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.717647
- Title: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training
- Title(参考訳): FIRE: 効果的な事前トレーニングのためのデータ品質レーティングの柔軟な統合
- Authors: Liangyu Xu, Xuemiao Zhang, Feiyu Duan, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai,
- Abstract要約: FIREは、複数のデータ品質レーダを統合するための、フレキシブルでスケーラブルなフレームワークである。
Fireは複数の品質信号を統一されたスペースに整合させ、さまざまなデータ品質レーダを統合して、各データポイントに対して包括的な品質信号を提供する。
実験により、FIREは他のデータ選択方法よりも優れ、事前訓練されたモデルの性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 19.71035758812447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting high-quality data can improve the pretraining efficiency of large language models (LLMs). Existing methods generally rely on heuristic techniques or single quality signals, limiting their ability to evaluate data quality comprehensively. In this work, we propose FIRE, a flexible and scalable framework for integrating multiple data quality raters, which allows for a comprehensive assessment of data quality across various dimensions. FIRE aligns multiple quality signals into a unified space, and integrates diverse data quality raters to provide a comprehensive quality signal for each data point. Further, we introduce a progressive data selection scheme based on FIRE that iteratively refines the selection of high-quality data points. Extensive experiments show that FIRE outperforms other data selection methods and significantly boosts pretrained model performance across a wide range of downstream tasks, while requiring less than 37.5\% of the training data needed by the Random baseline to reach the target performance.
- Abstract(参考訳): 高品質なデータを選択することで,大規模言語モデル(LLM)の事前学習効率が向上する。
既存の手法は概してヒューリスティックな手法や単一品質信号に依存し、データ品質を包括的に評価する能力を制限する。
本研究では,複数のデータ品質レーダを統合するフレキシブルでスケーラブルなフレームワークであるFIREを提案する。
FIREは複数の品質信号を統一された空間に整列し、多様なデータ品質レーダを統合し、各データポイントに対して包括的な品質信号を提供する。
さらに、FIREに基づくプログレッシブデータ選択方式を導入し、高品質なデータポイントの選択を反復的に洗練する。
大規模な実験により、FIREは他のデータ選択方法よりも優れており、Randomベースラインが目標のパフォーマンスに到達するのに必要なトレーニングデータの37.5\%未満を必要としながら、広範囲の下流タスクで事前訓練されたモデルパフォーマンスを大幅に向上することが示された。
関連論文リスト
- QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining [12.872792775510172]
我々はQuaDMixという統合されたデータ選択フレームワークを導入し、大規模言語モデルの事前学習のためのデータ分散を自動的に最適化する。
多様なモデルとデータセットにわたる実験により、QuaDMixは複数のベンチマークで平均パフォーマンスが7.2%向上していることが示された。
論文 参考訳(メタデータ) (2025-04-23T08:36:50Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。
ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。
我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Synth-Empathy: Towards High-Quality Synthetic Empathy Data [23.891966228508476]
Synth-Empathyは、高品質な共感データを自動的に生成し、低品質なデータを破棄するパイプラインである。
データ量と品質のトレードオフを示し、共感的なデータ生成と選択に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-31T15:12:24Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data Diversity Matters for Robust Instruction Tuning [129.83575908023312]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。
データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。
いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-11-21T19:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。