Fugu-MT 論文翻訳(概要): LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning

論文の概要: LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning

arxiv url: http://arxiv.org/abs/2505.07437v1
Date: Mon, 12 May 2025 10:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.35395
Title: LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning
Title（参考訳）: LEAD: 効率的なLDM指導チューニングのための反復データ選択
Authors: Xiaotian Lin, Yanlin Qi, Yizhang Zhu, Themis Palpanas, Chengliang Chai, Nan Tang, Yuyu Luo,
Abstract要約: 我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
参考スコア（独自算出の注目度）: 22.242445543184264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction tuning has emerged as a critical paradigm for improving the capabilities and alignment of large language models (LLMs). However, existing iterative model-aware data selection methods incur significant computational overhead, as they rely on repeatedly performing full-dataset model inference to estimate sample utility for subsequent training iterations, creating a fundamental efficiency bottleneck. In this paper, we propose LEAD, an efficient iterative data selection framework that accurately estimates sample utility entirely within the standard training loop, eliminating the need for costly additional model inference. At its core, LEAD introduces Instance-Level Dynamic Uncertainty (IDU), a theoretically grounded utility function combining instantaneous training loss, gradient-based approximation of loss changes, and exponential smoothing of historical loss signals. To further scale efficiently to large datasets, LEAD employs a two-stage, coarse-to-fine selection strategy, adaptively prioritizing informative clusters through a multi-armed bandit mechanism, followed by precise fine-grained selection of high-utility samples using IDU. Extensive experiments across four diverse benchmarks show that LEAD significantly outperforms state-of-the-art methods, improving average model performance by 6.1%-10.8% while using only 2.5% of the training data and reducing overall training time by 5-10x.
Abstract（参考訳）: インストラクションチューニングは、大きな言語モデル(LLM)の機能とアライメントを改善するための重要なパラダイムとして登場した。しかし、既存の反復型モデル対応データ選択手法は、その後のトレーニングイテレーションのサンプルユーティリティを推定するために、繰り返しフルデータセットモデル推論を実行することに依存するため、計算上のオーバーヘッドが大幅に増大する。本稿では,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する効率的な反復的データ選択フレームワークであるLEADを提案し,コストのかかるモデル推論の必要性を排除した。 LEADは、即時トレーニング損失、勾配に基づく損失変化の近似、履歴的損失信号の指数的平滑化を組み合わせた理論的に基礎付けられたユーティリティ機能である、インスタンス・レベル・ダイナミック不確実性(IDU)を導入している。大規模なデータセットにさらに効率的にスケールするために、LEADは2段階の粗い選択戦略を採用し、多武装バンディット機構を通じて情報クラスタを適応的に優先順位付けし、続いてIDUを用いた高ユーティリティサンプルの精密な選別を行う。 4つの多種多様なベンチマークによる大規模な実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能を6.1%-10.8%改善し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍に短縮した。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection [29.647174797769015]
本稿では,トレーニング効率とモデル性能の両方を改善することを目的とした,パラメトリックモデルを用いたコードデータ選択手法を提案する。提案手法は,92K以上の全サンプリングベースラインに対して2.4% (HumanEval) と2.3% (MBPP) のゲインを達成し,他のサンプリング手法よりも性能と効率が優れている。
論文参考訳（メタデータ） (2025-07-03T07:19:56Z)
AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文参考訳（メタデータ） (2025-06-24T22:35:51Z)
Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々はポイントワイズ情報(PVI)に基づく効果的なデータ削減戦略を提案する。実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。我々は、以前英語のデータセットに限られていたPVIフレームワークを、さまざまな中国のNLPタスクやベースモデルに適用した。
論文参考訳（メタデータ） (2025-06-19T06:59:19Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
A Self-Supervised Paradigm for Data-Efficient Medical Foundation Model Pre-training: V-information Optimization Framework [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。近年の研究では、データ効率のよい学習手法を導入して、この共通パラダイムに挑戦している。本稿では, 基本モデルの自己教師型事前学習にV情報を導入し, サンプル選択の理論的基礎を提供する。
論文参考訳（メタデータ） (2024-08-13T10:28:54Z)
SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文参考訳（メタデータ） (2024-07-09T08:26:39Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)
Dataset Pruning: Reducing Training Data by Examining Generalization Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか? モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文参考訳（メタデータ） (2022-05-19T05:36:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。