論文の概要: Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning
- arxiv url: http://arxiv.org/abs/2508.21589v1
- Date: Fri, 29 Aug 2025 12:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.049969
- Title: Middo: Model-Informed Dynamic Data Optimization for Enhanced LLM Fine-Tuning via Closed-Loop Learning
- Title(参考訳): Middo: 閉ループ学習によるLLMファインチューニングのためのモデルインフォームド動的データ最適化
- Authors: Zinan Tang, Xin Gao, Qizhi Pei, Zhuoshi Pan, Mengzhang Cai, Jiang Wu, Conghui He, Lijun Wu,
- Abstract要約: Supervised Fine-Tuning (SFT) Large Language Modelsは高品質なトレーニングデータに依存している。
自己進化型モデル駆動動的データ最適化フレームワークであるMiddoを紹介した。
我々のフレームワークは、モデル対応データ選択とコンテキスト保存データ精錬を使用する。
- 参考スコア(独自算出の注目度): 44.53583316198435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) Large Language Models (LLM) fundamentally rely on high-quality training data. While data selection and data synthesis are two common strategies to improve data quality, existing approaches often face limitations in static dataset curation that fail to adapt to evolving model capabilities. In this paper, we introduce Middo, a self-evolving Model-informed dynamic data optimization framework that uses model-aware data selection and context-preserving data refinement. Unlike conventional one-off filtering/synthesis methods, our framework establishes a closed-loop optimization system: (1) A self-referential diagnostic module proactively identifies suboptimal samples through tri-axial model signals - loss patterns (complexity), embedding cluster dynamics (diversity), and self-alignment scores (quality); (2) An adaptive optimization engine then transforms suboptimal samples into pedagogically valuable training points while preserving semantic integrity; (3) This optimization process continuously evolves with model capability through dynamic learning principles. Experiments on multiple benchmarks demonstrate that our \method consistently enhances the quality of seed data and boosts LLM's performance with improving accuracy by 7.15% on average while maintaining the original dataset scale. This work establishes a new paradigm for sustainable LLM training through dynamic human-AI co-evolution of data and models. Our datasets, models, and code are coming soon.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) Large Language Models (LLM) は基本的に高品質なトレーニングデータに依存している。
データ選択とデータ合成は、データ品質を改善するための2つの一般的な戦略であるが、既存のアプローチは、進化するモデル機能に適応できない静的データセットキュレーションの制限に直面していることが多い。
本稿では,モデル認識データ選択とコンテキスト保存データ更新を用いた自己進化型モデルインフォームド動的データ最適化フレームワークであるMiddoを紹介する。
1) 3軸モデル信号による自己参照型診断モジュールは, 3軸モデル信号の損失パターン(複雑度), クラスタダイナミックス(多様性), 自己アライメントスコア(品質)を積極的に識別する。
複数のベンチマークの実験では、私たちの‘method’は、シードデータの質を一貫して向上し、LLMのパフォーマンスを、オリジナルのデータセットスケールを維持しながら平均で7.15%向上させることが示されています。
この研究は、データとモデルの動的な人間-AI共進化を通して、持続可能なLLMトレーニングのための新しいパラダイムを確立する。
データセットやモデル,コードなどが近く公開される予定です。
関連論文リスト
- LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。
実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。
さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-22T02:47:12Z) - Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。
モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。
この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文 参考訳(メタデータ) (2025-06-11T12:48:45Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。