論文の概要: Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning
- arxiv url: http://arxiv.org/abs/2510.16882v1
- Date: Sun, 19 Oct 2025 15:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.192451
- Title: Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning
- Title(参考訳): LLM監督微調整のためのオンラインバッチ選択を意識した実用性
- Authors: Heming Zou, Yixiu Mao, Yun Qu, Qi Wang, Xiangyang Ji,
- Abstract要約: Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
- 参考スコア(独自算出の注目度): 49.04912820721943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised fine-tuning (SFT) is a commonly used technique to adapt large language models (LLMs) to downstream tasks. In practice, SFT on a full dataset is computationally expensive and sometimes suffers from overfitting or bias amplification. This facilitates the rise of data curation in SFT, which prioritizes the most valuable data to optimze. This work studies the online batch selection family that dynamically scores and filters samples during the training process. However, existing popular methods often (i) rely merely on the utility of data to select a subset while neglecting other crucial factors like diversity, (ii) rely on external resources such as reference models or validation sets, and (iii) incur extra training time over full-dataset training. To address these limitations, this work develops \textbf{UDS (Utility-Diversity Sampling)}, a framework for efficient online batch selection in SFT. UDS leverages the nuclear norm of the logits matrix to capture both data utility and intra-sample diversity, while estimating inter-sample diversity through efficient low-dimensional embedding comparisons with a lightweight memory buffer of historical samples. Such a design eliminates the need for external resources and unnecessary backpropagation, securing computational efficiency. Experiments on multiple benchmarks demonstrate that UDS consistently outperforms state-of-the-art online batch selection methods under varying data budgets, and significantly reduces training time compared to full-dataset fine-tuning. Code is available at https://github.com/gfyddha/UDS.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大規模言語モデル(LLM)を下流タスクに適応させる手法として一般的に用いられる。
実際には、完全なデータセット上のSFTは計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
これにより、SFTにおけるデータキュレーションの上昇が促進され、最適化する上で最も価値のあるデータが優先順位付けされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
しかし、既存の一般的な方法がしばしばある。
i) 多様性などの他の重要な要素を無視しながら、サブセットを選択するデータの有用性にのみ依存する。
(ii)参照モデルや検証セットなどの外部リソースに依存し、
三 フルデータセットのトレーニングに要する余分なトレーニング時間
これらの制限に対処するため、この研究は SFT における効率的なオンラインバッチ選択のためのフレームワークである \textbf{UDS (Utility-Diversity Sampling)} を開発した。
UDSはロジット行列の核ノルムを活用し、データユーティリティとサンプル内多様性の両方を捉えながら、サンプル間多様性を、歴史的サンプルの軽量メモリバッファと効率的な低次元埋め込み比較によって推定する。
このような設計は、外部リソースや不要なバックプロパゲーションの必要性を排除し、計算効率を確保できる。
複数のベンチマークの実験では、UDSは様々なデータ予算の下で最先端のオンラインバッチ選択方法より一貫して優れており、フルデータセットの微調整に比べてトレーニング時間が大幅に短縮されている。
コードはhttps://github.com/gfyddha/UDS.comで入手できる。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - OASIS: Online Sample Selection for Continual Visual Instruction Tuning [55.92362550389058]
連続的インストラクションチューニング(CIT)のシナリオでは、新しいインストラクションチューニングデータがオンラインストリーミング形式で連続的に到着する。
データの選択はこのオーバーヘッドを軽減することができるが、既存の戦略はしばしば事前訓練された参照モデルに依存している。
最近の参照モデルなしオンラインサンプル選択手法はこれに対処するが、典型的にはバッチ毎に一定の数のサンプルを選択する。
論文 参考訳(メタデータ) (2025-05-27T20:32:43Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。