Fugu-MT 論文翻訳(概要): FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

論文の概要: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training

arxiv url: http://arxiv.org/abs/2502.00761v1
Date: Sun, 02 Feb 2025 11:52:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.150563
Title: FIRE: Flexible Integration of Data Quality Ratings for Effective Pre-Training
Title（参考訳）: FIRE: 効果的な事前トレーニングのためのデータ品質レーティングの柔軟な統合
Authors: Liangyu Xu, Xuemiao Zhang, Feiyu Duan, Sirui Wang, Jingang Wang, Xunliang Cai,
Abstract要約: FIREは、複数のデータ品質レーダを統合するフレキシブルなフレームワークである。高品質のデータポイントの選択を反復的に洗練する。 SlimPajamaデータセットの実験では、FIREは他の選択方法よりも一貫して優れています。
参考スコア（独自算出の注目度）: 13.182375437229519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Selecting high-quality data can significantly improve the pre-training efficiency of large language models (LLMs). Existing methods often rely on heuristic techniques and single quality signals, limiting their ability to comprehensively evaluate data quality. In this work, we propose FIRE, a flexible and scalable framework for integrating multiple data quality raters, which allows for a comprehensive assessment of data quality across various dimensions. FIRE aligns multiple quality signals into a unified space, and integrates diverse data quality raters to provide a comprehensive quality signal for each data point. Further, we introduce a progressive data selection scheme based on FIRE that iteratively refines the selection of high-quality data points, balancing computational complexity with the refinement of orthogonality. Experiments on the SlimPajama dataset reveal that FIRE consistently outperforms other selection methods and significantly enhances the pre-trained model across a wide range of downstream tasks, with a 2.9\% average performance boost and reducing the FLOPs necessary to achieve a certain performance level by more than half.
Abstract（参考訳）: 高品質なデータを選択することで、大規模言語モデル(LLM)の事前学習効率を大幅に向上させることができる。既存の手法は、しばしばヒューリスティックな手法と単一の品質信号に依存し、データ品質を包括的に評価する能力を制限する。本研究では,複数のデータ品質レーダを統合するフレキシブルでスケーラブルなフレームワークであるFIREを提案する。 FIREは複数の品質信号を統一された空間に整列し、多様なデータ品質レーダを統合し、各データポイントに対して包括的な品質信号を提供する。さらに、FIREに基づくプログレッシブなデータ選択方式を導入し、高品質なデータポイントの選択を反復的に洗練し、計算複雑性と直交性の洗練のバランスをとる。 SlimPajamaデータセットの実験では、FIREは他の選択方法よりも一貫して優れており、幅広い下流タスクにわたって事前訓練されたモデルを著しく向上させ、平均パフォーマンスが2.9\%向上し、あるパフォーマンスレベルを達成するために必要なFLOPを半分以上削減している。

関連論文リスト

CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics [38.09168541922346]
本稿では,言語モデル(LLM)の学習力学に対するデータ影響の概念に基づく,新しいデータ品質制御手法を提案する。次に、トレーニングダイナミクスの影響を活用して、異なるプライベートドメインから高品質なデータを選択する。実験により,提案手法により選択された高品質なデータに対するトレーニングは,LLMの協調微調整において,他のデータ選択方法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-02T06:19:40Z)
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining [12.872792775510172]
我々はQuaDMixという統合されたデータ選択フレームワークを導入し、大規模言語モデルの事前学習のためのデータ分散を自動的に最適化する。多様なモデルとデータセットにわたる実験により、QuaDMixは複数のベンチマークで平均パフォーマンスが7.2%向上していることが示された。
論文参考訳（メタデータ） (2025-04-23T08:36:50Z)
Call for Rigor in Reporting Quality of Instruction Tuning Data [7.284192559306471]
研究は、インストラクションチューニング(IT)データの品質の重要性を強調している。この実践から生じる潜在的な問題を実証し、データ品質を検証する上で慎重に検討する必要があることを強調する。
論文参考訳（メタデータ） (2025-03-04T02:04:58Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文参考訳（メタデータ） (2024-10-15T12:14:57Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Synth-Empathy: Towards High-Quality Synthetic Empathy Data [23.891966228508476]
Synth-Empathyは、高品質な共感データを自動的に生成し、低品質なデータを破棄するパイプラインである。データ量と品質のトレードオフを示し、共感的なデータ生成と選択に関する洞察を提供する。
論文参考訳（メタデータ） (2024-07-31T15:12:24Z)
AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-06T21:36:45Z)
Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文参考訳（メタデータ） (2024-03-07T14:28:04Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Data Diversity Matters for Robust Instruction Tuning [129.83575908023312]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文参考訳（メタデータ） (2023-11-21T19:12:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。