論文の概要: ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2506.10288v1
- Date: Thu, 12 Jun 2025 01:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.526854
- Title: ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs
- Title(参考訳): ClusterUCB: LLMの微調整のための高効率勾配データ選択
- Authors: Zige Wang, Qi Zhu, Fei Mi, Minghui Xu, Ruochun Jin, Wenjing Yang,
- Abstract要約: 本稿では、クラスタリングと修正されたアッパー信頼境界(UCB)アルゴリズムを用いた効率的な勾配に基づくデータ選択フレームワークを提案する。
各種ベンチマーク実験の結果,提案フレームワークであるClusterUCBは,従来の勾配に基づくデータ選択法と同等の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 22.68421108740517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based data influence approximation has been leveraged to select useful data samples in the supervised fine-tuning of large language models. However, the computation of gradients throughout the fine-tuning process requires too many resources to be feasible in practice. In this paper, we propose an efficient gradient-based data selection framework with clustering and a modified Upper Confidence Bound (UCB) algorithm. Based on the intuition that data samples with similar gradient features will have similar influences, we first perform clustering on the training data pool. Then, we frame the inter-cluster data selection as a constrained computing budget allocation problem and consider it a multi-armed bandit problem. A modified UCB algorithm is leveraged to solve this problem. Specifically, during the iterative sampling process, historical data influence information is recorded to directly estimate the distributions of each cluster, and a cold start is adopted to balance exploration and exploitation. Experimental results on various benchmarks show that our proposed framework, ClusterUCB, can achieve comparable results to the original gradient-based data selection methods while greatly reducing computing consumption.
- Abstract(参考訳): グラディエントに基づくデータ影響近似を用いて、大規模言語モデルの教師付き微調整において有用なデータサンプルを選択する。
しかし、微調整プロセス全体にわたる勾配の計算は、実際には実現可能なリソースが多すぎる。
本稿では,クラスタリングと修正されたアッパー信頼境界(UCB)アルゴリズムを用いた,効率的な勾配に基づくデータ選択フレームワークを提案する。
同様の勾配特徴を持つデータサンプルが同様の影響を与えるという直感に基づいて、トレーニングデータプール上でクラスタリングを行う。
そして,クラスタ間データ選択を制約付き計算予算配分問題とみなし,マルチアームバンディット問題とみなす。
修正 UCB アルゴリズムを利用してこの問題を解決する。
具体的には、反復サンプリングプロセス中に、各クラスタの分布を直接推定する履歴データ影響情報を記録し、探索とエクスプロイトのバランスをとるためにコールドスタートを採用する。
各種ベンチマーク実験の結果,提案フレームワークであるClusterUCBは,従来の勾配に基づくデータ選択手法に匹敵する結果が得られるとともに,計算量を大幅に削減できることがわかった。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - Accelerating Federated Learning by Selecting Beneficial Herd of Local Gradients [40.84399531998246]
Federated Learning (FL) は、通信ネットワークシステムにおける分散機械学習フレームワークである。
非独立分散(Non-IID)データは、大域モデルの収束効率に悪影響を及ぼす。
FLモデルの収束を加速するために,局所勾配の有利な群を選別するBHerd戦略を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:16:59Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。