論文の概要: Convex Dataset Valuation for Post-Training
- arxiv url: http://arxiv.org/abs/2605.16704v1
- Date: Fri, 15 May 2026 23:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.916818
- Title: Convex Dataset Valuation for Post-Training
- Title(参考訳): 後トレーニングのための凸データセット評価
- Authors: Siqi Zeng, Christopher Jung, Rui Li, Zhe Kang, Ming Li, Nima Noorshams, Zhigang Wang, Fuchun Peng, Han Zhao, Xue Feng,
- Abstract要約: 勾配空間における平均マッチング(KMM)に基づくスケーラブルな凸データセットレベルの評価法を提案する。
このアプローチが既存のバリュエーションベースラインを一貫して上回り、オーバーヘッドを低くしてより強力なパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 21.22512177964122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving LLM performance on downstream tasks sometimes requires leveraging auxiliary datasets during post-training. In practice, however, developers face constraints on compute, labeling, and licensing costs that preclude using all available data, necessitating principled dataset-level selection. These constraints are increasingly shaped by dataset marketplaces, where data acquisition is governed by budgets and negotiation. We study dataset valuation as a subset selection problem during LLM post-training. Our goal is to identify and weight auxiliary datasets so as to maximize target task performance given constrained budgets. We first show that commonly used gradient alignment scores provide a reasonable yet incomplete valuation signal, as they ignore redundancy among datasets. To address this, we propose a scalable convex dataset-level valuation method based on kernel mean matching (KMM) in gradient space, which jointly accounts for alignment with the target task and redundancy across auxiliary datasets. Through extensive experiments across diverse post-training settings and tasks, we show that our approach consistently outperforms existing valuation baselines, achieving stronger performance with low computational overhead. Our results position dataset valuation as a practical decision tool for post-training data selection in market-constrained large language model settings. The code is available at https://github.com/uiuctml/convex_data_valuation.
- Abstract(参考訳): 下流タスクでのLLMパフォーマンスを改善するには、トレーニング後の補助データセットを活用する必要がある。
しかし実際には、開発者は利用可能なすべてのデータを使用することを妨げ、原則化されたデータセットレベルの選択を必要とする計算、ラベル付け、ライセンシングコストの制約に直面している。
これらの制約は、データ取得が予算と交渉によって管理されるデータセットマーケットプレースによってますます形作られています。
本研究では,LLM後学習におけるサブセット選択問題としてデータセット評価について検討する。
我々の目標は、制約された予算が与えられた場合のタスクパフォーマンスを最大化するために、補助的なデータセットを識別し、重み付けすることである。
最初に、一般的に使用される勾配アライメントスコアは、データセット間の冗長性を無視するため、合理的で不完全な評価信号を提供することを示した。
そこで本研究では,カーネル平均マッチング(KMM)に基づく拡張性のある凸データセットレベルの評価手法を提案する。
トレーニング後のさまざまな設定やタスクに対する広範な実験を通じて、我々のアプローチは既存の評価基準よりも一貫して優れており、計算オーバーヘッドの少ないパフォーマンスを実現していることを示す。
この結果から,市場制約付き大規模言語モデル設定におけるデータ選択の実践的決定ツールとしてデータセット評価を位置づけた。
コードはhttps://github.com/uiuctml/convex_data_valuationで公開されている。
関連論文リスト
- Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。
我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。
6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-05T03:52:04Z) - Neural Dynamic Data Valuation: A Stochastic Optimal Control Approach [15.538631565455448]
本稿では、時間とともにデータユーティリティの動的進化を捉えるために、データバリュエーションを最適制御問題として定式化する新しいフレームワークを提案する。
静的アプローチとは異なり、NDDVは個々の学習力学と集団学習力学の両方を反映した連続的な軌跡を通してデータ相互作用をモデル化する。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。