論文の概要: CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics
- arxiv url: http://arxiv.org/abs/2507.03004v1
- Date: Wed, 02 Jul 2025 06:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.521258
- Title: CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics
- Title(参考訳): CLUES: トレーニングダイナミクスによるLCMの協調的高品質データ選択
- Authors: Wanru Zhao, Hongxiang Fan, Shell Xu Hu, Wangchunshu Zhou, Bofan Chen, Nicholas D. Lane,
- Abstract要約: 本稿では,言語モデル(LLM)の学習力学に対するデータ影響の概念に基づく,新しいデータ品質制御手法を提案する。
次に、トレーニングダイナミクスの影響を活用して、異なるプライベートドメインから高品質なデータを選択する。
実験により,提案手法により選択された高品質なデータに対するトレーニングは,LLMの協調微調整において,他のデータ選択方法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 38.09168541922346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research has highlighted the importance of data quality in scaling large language models (LLMs). However, automated data quality control faces unique challenges in collaborative settings where sharing is not allowed directly between data silos. To tackle this issue, this paper proposes a novel data quality control technique based on the notion of data influence on the training dynamics of LLMs, that high quality data are more likely to have similar training dynamics to the anchor dataset. We then leverage the influence of the training dynamics to select high-quality data from different private domains, with centralized model updates on the server side in a collaborative training fashion by either model merging or federated learning. As for the data quality indicator, we compute the per-sample gradients with respect to the private data and the anchor dataset, and use the trace of the accumulated inner products as a measurement of data quality. In addition, we develop a quality control evaluation tailored for collaborative settings with heterogeneous domain data. Experiments show that training on the high-quality data selected by our method can often outperform other data selection methods for collaborative fine-tuning of LLMs, across diverse private domain datasets, in medical, multilingual and financial settings. Our code is released at github.com/Ryan0v0/CLUES.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)のスケーリングにおけるデータ品質の重要性を強調している。
しかし、自動データ品質制御は、データサイロ間で直接の共有が許されない、協調的な設定においてユニークな課題に直面している。
そこで本研究では,LLMのトレーニングダイナミクスに対するデータ影響の概念に基づくデータ品質制御手法を提案する。
次に、トレーニングダイナミクスの影響を活用して、異なるプライベートドメインから高品質なデータを選択し、モデルマージまたはフェデレーション学習によって、サーバ側の集中型モデル更新を協調的なトレーニング方式で行う。
データ品質指標については、プライベートデータとアンカーデータセットに関するサンプルごとの勾配を計算し、蓄積した内部積の痕跡をデータ品質の測定として利用する。
さらに、異種ドメインデータとの協調的な設定に適した品質制御評価を開発する。
実験により,本手法により選択された高品質なデータに対するトレーニングは,医療,多言語,財務などの分野において,多種多様なプライベートドメインデータセットにまたがって,LLMを協調的に微調整するための他のデータ選択方法よりも優れていることが示された。
私たちのコードはgithub.com/Ryan0v0/CLUESでリリースされています。
関連論文リスト
- LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。
実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。
さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-22T02:47:12Z) - IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。
複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。
混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T06:42:44Z) - DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - Call for Rigor in Reporting Quality of Instruction Tuning Data [7.284192559306471]
研究は、インストラクションチューニング(IT)データの品質の重要性を強調している。
この実践から生じる潜在的な問題を実証し、データ品質を検証する上で慎重に検討する必要があることを強調する。
論文 参考訳(メタデータ) (2025-03-04T02:04:58Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。
ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。
我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。