論文の概要: Is Data Shapley Not Better than Random in Data Selection? Ask NASH
- arxiv url: http://arxiv.org/abs/2605.10684v2
- Date: Tue, 12 May 2026 09:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.13457
- Title: Is Data Shapley Not Better than Random in Data Selection? Ask NASH
- Title(参考訳): データ共有はデータ選択におけるランダムよりも優れているか?NASHに聞く
- Authors: Xiao Tian, Jue Fan, Rachael Hwee Ling Sim, Zixuan Wang, Nancy F. Chen, Bryan Kian Hsiang Low,
- Abstract要約: データ選択は、訓練データの高品質なサブセットを特定する問題を研究する。
目的のユーティリティ関数を単純化したシェープリー不変成分関数に分解するNASH(Non-linear Aggregation of SHapley-informative components)を提案する。
NASHは、Shapley/semivalueベースのデータ選択の有効性を、最小限のランタイムコストで大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 88.53569058157144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection studies the problem of identifying high-quality subsets of training data. While some existing works have considered selecting the subset of data with top-$m$ Data Shapley or other semivalues as they account for the interaction among every subset of data, other works argue that Data Shapley can sometimes perform ineffectively in practice and select subsets that are no better than random. This raises the questions: (I) Are there certain "Shapley-informative" settings where Data Shapley consistently works well? (II) Can we strategically utilize these settings to select high-quality subsets consistently and efficiently? In this paper, we propose a novel data selection framework, NASH (Non-linear Aggregation of SHapley-informative components), which (I) decomposes the target utility function (e.g., validation accuracy) into simpler, Shapley-informative component functions, and selects data by optimizing an objective that (II) aggregates these components non-linearly. We demonstrate that NASH substantially boosts the effectiveness of Shapley/semivalue-based data selection with minimal additional runtime cost.
- Abstract(参考訳): データ選択は、訓練データの高品質なサブセットを特定する問題を研究する。
既存の研究ではデータのサブセットをトップ$m$Data Shapleyや他の半値で選択することを検討しているが、データ共有は実際は非効率に実行でき、乱数に劣らないサブセットを選択できると主張する研究もある。
I) Data Shapleyが一貫して機能する、ある種の"Shapley-informative"設定はありますか?
(II)
これらの設定を戦略的に利用して、高品質なサブセットを一貫して効率的に選択できますか?
本稿では,新たなデータ選択フレームワークであるNASH(Non-linear Aggregation of SHapley-informative components)を提案する。
NASHは、Shapley/semivalueベースのデータ選択の有効性を、最小限のランタイムコストで大幅に向上することを示した。
関連論文リスト
- A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't) [14.070675074621043]
インストラクションの微調整では、ターゲットタスクから小さなクエリセットを使用して、大きな候補プールから命令トレーニングデータのサブセットを選択する。
関心が高まりつつも、対象とする命令の選択に関する文献は断片化され、不透明なままである。
本研究では,データ表現と選択アルゴリズムという2つの中核成分を分離し,体系的に分析することで,この景観に明瞭さをもたらすことを目的とする。
論文 参考訳(メタデータ) (2026-02-16T12:33:05Z) - Unifying and Optimizing Data Values for Selection via Sequential-Decision-Making [5.755427480127593]
本研究では,選択に適用されるデータ値を逐次決定問題として再定義可能であることを示す。
本稿では,学習された二部グラフを代理ユーティリティモデルとして用いた効率的な近似手法を提案する。
論文 参考訳(メタデータ) (2025-02-06T23:03:10Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHG(Compound of Hardness and Gradient)ユーティリティ関数を提案する。
CHGユーティリティ関数を用いて各データポイント毎の閉形式のShapley値を導出することにより、計算複雑性を1つのモデル再学習に還元する。
さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits [37.79841753524388]
Data Shapleyはデータ評価に対する原則的なアプローチを提供し、データ中心機械学習(ML)研究において重要な役割を果たす。
データ選択は、Data Shapleyの標準的な応用と見なされているが、そのデータ選択性能は、文献における設定間で一貫性がないことが示されている。
我々は仮説テストフレームワークを導入し、Data Shapleyのパフォーマンスがユーティリティ関数に特定の制約を加えることなくランダムな選択に勝ることを示す。
論文 参考訳(メタデータ) (2024-05-06T21:46:10Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。