論文の概要: CRAFT: Clustered Regression for Adaptive Filtering of Training data
- arxiv url: http://arxiv.org/abs/2604.22693v1
- Date: Fri, 24 Apr 2026 16:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.532272
- Title: CRAFT: Clustered Regression for Adaptive Filtering of Training data
- Title(参考訳): CRAFT:学習データの適応フィルタリングのためのクラスタ化回帰
- Authors: Parthasarathi Panda, Asheswari Swain, Subhrakanta Panda,
- Abstract要約: CRAFTは、シーケンス・ツー・シーケンスモデルを訓練するためのベクトル化に依存しない選択法である。
英ヒンディー語翻訳におけるCRAFTの評価には,3300万行のNLLB文ペアと,LoRAによる微調整mBARTからトレーニングデータを選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting a small, high-quality subset from a large corpus for fine-tuning is increasingly important as corpora grow to tens of millions of datapoints, making full fine-tuning expensive and often unnecessary. We propose CRAFT (Clustered Regression for Adaptive Filtering of Training data), a vectorization-agnostic selection method for training sequence-to-sequence models. CRAFT decomposes the joint source-target distribution and performs a two-stage selection: (i) match the validation source distribution through proportional budget allocation across k-means clusters, and (ii) within each source cluster, select training pairs whose target embeddings minimize a conditional expected distance derived from the validation target distribution. We prove that proportional cluster allocation bounds the continuous KL divergence between selected and validation distributions, with the residual controlled by cluster diameters. We evaluate CRAFT on English-Hindi translation by selecting training data from 33 million NLLB sentence pairs and fine-tuning mBART via LoRA. CRAFT achieves 43.34 BLEU, outperforming TSDS (41.21) by 2.13 points on the same candidate pool and encoder while completing selection over 40 times faster. With TF-IDF vectorization, the entire pipeline completes in under one minute on CPU. TAROT achieves 45.61 BLEU, but CRAFT completes selection in 26.86 seconds versus TAROT's 75.6 seconds, a 2.8 time speedup.
- Abstract(参考訳): コーパスが数千万のデータポイントに成長するにつれて、大規模なコーパスから高品質なサブセットを選択することがますます重要になり、完全な微調整が高価でしばしば不要になる。
CRAFT(Clustered Regression for Adaptive Filtering of Training Data)を提案する。
CRAFTは、ジョイントソース・ターゲット分布を分解し、2段階選択を行う。
i)k平均クラスタ間の比例予算配分による検証元分布の一致
(ii) 各ソースクラスタ内では、検証対象分布から導出される条件付き予測距離を最小化する目標埋め込みを含むトレーニングペアを選択する。
比例クラスタ割り当ては, 選択分布と検証分布の連続KL分散を, 残差はクラスタ径によって制御されていることを証明した。
英ヒンディー語翻訳におけるCRAFTの評価には,3300万行のNLLB文ペアと,LoRAによる微調整mBARTからトレーニングデータを選択する。
CRAFTは43.34BLEUを達成し、同じ候補プールとエンコーダでTSDS(41.21)を2.13ポイント上回った。
TF-IDFベクトル化では、パイプライン全体がCPU上で1分以内で完了する。
TAROTは45.61BLEUを達成したが、CRAFTはTAROTの75.6秒に対して26.86秒で選択を完了し、2.8秒でスピードアップした。
関連論文リスト
- Adaptive Split-MMD Training for Small-Sample Cross-Dataset P300 EEG Classification [12.103074826558531]
データセット間のシフトは、大きなソースデータセットで小さなターゲットセットを増やそうとするときに発生する。
適応分割最大値離散化学習(AS-MMD)を紹介する。
AS-MMDは、ターゲット重み付き損失とソース/ターゲットサイズ比の平方根に結びついたウォームアップを組み合わせる。
目標のみのトレーニングやプールトレーニングよりも優れています。
論文 参考訳(メタデータ) (2025-10-24T18:48:21Z) - Adapt, But Don't Forget: Fine-Tuning and Contrastive Routing for Lane Detection under Distribution Shift [3.394257279821418]
データセット間の分散シフトは、微調整中に破滅的な忘れ物を引き起こす可能性がある。
本フレームワークは,分布毎に異なるモデルをトレーニングするよりも,パラメータをはるかに少なくしながら,ほぼ最適F1スコアを実現する。
論文 参考訳(メタデータ) (2025-07-22T18:39:15Z) - Enhancing Federated Learning Convergence with Dynamic Data Queue and Data Entropy-driven Participant Selection [13.825031686864559]
Federated Learning(FL)は、エッジデバイス上でのコラボレーティブモデルトレーニングのための分散アプローチである。
本稿では,サーバ上のデータのグローバルサブセットを作成し,デバイス間で動的に分散することにより,FLの収束を改善する手法を提案する。
提案手法により,MNISTデータセットでは約5%,CIFAR-10では約18%,CIFAR-100では約20%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-10-23T11:47:04Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。
我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。
このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文 参考訳(メタデータ) (2024-09-20T09:19:46Z) - Double-Bounded Optimal Transport for Advanced Clustering and
Classification [58.237576976486544]
本稿では,2つの境界内での目標分布の制限を前提としたDB-OT(Douubly bounded Optimal Transport)を提案する。
提案手法は,テスト段階における改良された推論方式により,良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-21T07:43:01Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。