論文の概要: DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections
- arxiv url: http://arxiv.org/abs/2508.12116v1
- Date: Sat, 16 Aug 2025 18:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.574736
- Title: DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections
- Title(参考訳): DynamixSFT:インストラクションチューニングコレクションの動的混合最適化
- Authors: Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Qi Chen, Yeyun Gong,
- Abstract要約: DynamixSFTは、命令調整データセットの混合最適化のための動的かつ自動化された方法である。
Tulu-v2-mixtureコレクションに適用すると、DynamixSFTは10ベンチマークで最大2.2%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 32.96299012542947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As numerous instruction-tuning datasets continue to emerge during the post-training stage, dynamically balancing and optimizing their mixtures has become a critical challenge. To address this, we propose DynamixSFT, a dynamic and automated method for instruction-tuning dataset mixture optimization. We formulate the problem as a multi-armed bandit setup and introduce a Prior-scaled Boltzmann Exploration that softly anchors the updated sampling distribution to the original dataset proportions, thereby preserving the inherent diversity and coverage of the collection. Sampling probabilities are updated using a lightweight 1-Step Look-ahead Reward, reflecting how much the dataset contributes to improving the model's performance at its current state. When applied to the Tulu-v2-mixture collection comprising 16 instruction-tuning datasets, DynamixSFT achieves up to a 2.2% performance improvement across 10 benchmarks. Furthermore, we provide a comprehensive analysis and visualizations to offer deeper insights into the adaptive dynamics of our method.
- Abstract(参考訳): トレーニング後の段階では、多くのインストラクションチューニングデータセットが登場し続けており、それらの混合物の動的バランスと最適化が重要な課題となっている。
そこで我々はDynamixSFTを提案する。DynamixSFTは命令調整データセットの混合最適化のための動的で自動化された手法である。
マルチアームバンディットのセットアップとして問題を定式化し、更新されたサンプリング分布を元のデータセット比にソフトに固定するプリエントスケールボルツマン探索を導入し、コレクション固有の多様性とカバレッジを保存する。
サンプリング確率は軽量の1ステップルックアヘッド・リワードを使用して更新され、データセットが現在の状態におけるモデルのパフォーマンス向上にどの程度貢献するかを反映する。
16の命令チューニングデータセットからなるTulu-v2-mixtureコレクションに適用すると、DynamixSFTは10ベンチマークで最大2.2%のパフォーマンス向上を達成した。
さらに,本手法の適応力学についてより深い知見を得るため,包括的解析と可視化を行う。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition [4.192370959537781]
本稿では,ラベル付きデータに制限のある下流タスクにおいて,事前学習した基礎モデルの性能向上を目的とした半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-10-02T22:36:12Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。