論文の概要: Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments
- arxiv url: http://arxiv.org/abs/2605.11312v1
- Date: Mon, 11 May 2026 23:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.467231
- Title: Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments
- Title(参考訳): 制約-値-値-最大化:低データ環境における効率的なデータ抽出のためのデータ属性の利用
- Authors: Danilo Brajovic, David A. Kreplin, Marco F. Huber,
- Abstract要約: 一般的なベンチマークは、低値または高値のデータインスタンスを削除するデータ削除である。
制約値-値-値-最大化(CDVM)アプローチを導入し、低データシナリオにおけるプルーニングにデータ属性を効果的に活用する。
OpenDataValベンチマークでは、CDVMは強力なパフォーマンスと競争力のあるランタイムを示している。
- 参考スコア(独自算出の注目度): 3.231829032310784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attributing model behavior to training data is an evolving research field. A common benchmark is data removal, which involves eliminating data instances with either low or high values, then assessing a model's performance trained on the modified dataset. Many existing studies leverage Shapley-based data values for this task. In this paper, we demonstrate that these data values are not optimally suited for pruning low-value data when only a limited amount of data remains. To address this limitation, we introduce the Constraint-Data-Value-Maximization (CDVM) approach, which effectively utilizes data attributions for pruning in low-data scenarios. By casting pruning as a constrained optimization that both maximizes total influence and penalizes excessive per-test contributions, CDVM delivers robust performance when only a small fraction of the data is retained. On the OpenDataVal benchmark, CDVM shows strong performance and competitive runtime.
- Abstract(参考訳): トレーニングデータに対するモデル行動の寄与は、進化する研究分野である。
一般的なベンチマークは、低値または高値のデータインスタンスを削除し、修正されたデータセットでトレーニングされたモデルのパフォーマンスを評価する、データ削除である。
多くの既存研究では、このタスクにShapleyベースのデータ値を利用している。
本稿では,これらのデータ値が,限られた量のデータしか残っていない場合の低値データのプルーニングに最適でないことを示す。
この制限に対処するため,制約値-値-値-最大化(CDVM)アプローチを導入し,低データシナリオにおけるプルーニングにおけるデータ属性を効果的に活用する。
プルーニングを全影響を最大化し、テスト毎の過剰なコントリビューションをペナルティ化する制約付き最適化としてキャストすることで、CDVMはデータのごく一部しか保持していない場合に、堅牢なパフォーマンスを提供する。
OpenDataValベンチマークでは、CDVMは強力なパフォーマンスと競争力のあるランタイムを示している。
関連論文リスト
- Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice [109.9635246405237]
データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。
評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。
実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-12-30T23:02:44Z) - DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Proper Dataset Valuation by Pointwise Mutual Information [26.693741797887643]
データキュレーション手法を評価するための情報理論フレームワークを提案する。
我々は,データセットの品質を,真のモデルパラメータに関する情報性の観点から定義する。
得られたデータとテストデータとの間のシャノン相互情報によりブラックウェル順序を決定することができることを示す。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - Neural Dynamic Data Valuation: A Stochastic Optimal Control Approach [15.538631565455448]
本稿では、時間とともにデータユーティリティの動的進化を捉えるために、データバリュエーションを最適制御問題として定式化する新しいフレームワークを提案する。
静的アプローチとは異なり、NDDVは個々の学習力学と集団学習力学の両方を反映した連続的な軌跡を通してデータ相互作用をモデル化する。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。