論文の概要: Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits
- arxiv url: http://arxiv.org/abs/2405.03875v1
- Date: Mon, 6 May 2024 21:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:57:58.633871
- Title: Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits
- Title(参考訳): データ選択タスクのためのデータ共有の再考:誤解とメリット
- Authors: Jiachen T. Wang, Tianji Yang, James Zou, Yongchan Kwon, Ruoxi Jia,
- Abstract要約: Data Shapleyはデータ評価に対する原則的なアプローチを提供し、データ中心機械学習(ML)研究において重要な役割を果たす。
データ選択は、Data Shapleyの標準的な応用と見なされているが、そのデータ選択性能は、文献における設定間で一貫性がないことが示されている。
我々は仮説テストフレームワークを導入し、Data Shapleyのパフォーマンスがユーティリティ関数に特定の制約を加えることなくランダムな選択に勝ることを示す。
- 参考スコア(独自算出の注目度): 37.79841753524388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Shapley provides a principled approach to data valuation and plays a crucial role in data-centric machine learning (ML) research. Data selection is considered a standard application of Data Shapley. However, its data selection performance has shown to be inconsistent across settings in the literature. This study aims to deepen our understanding of this phenomenon. We introduce a hypothesis testing framework and show that Data Shapley's performance can be no better than random selection without specific constraints on utility functions. We identify a class of utility functions, monotonically transformed modular functions, within which Data Shapley optimally selects data. Based on this insight, we propose a heuristic for predicting Data Shapley's effectiveness in data selection tasks. Our experiments corroborate these findings, adding new insights into when Data Shapley may or may not succeed.
- Abstract(参考訳): Data Shapleyはデータ評価に対する原則的なアプローチを提供し、データ中心機械学習(ML)研究において重要な役割を果たす。
データ選択は、Data Shapleyの標準的な応用と見なされている。
しかし、そのデータ選択性能は、文献における設定間で矛盾していることが示されている。
この研究は、この現象の理解を深めることを目的としている。
我々は仮説テストフレームワークを導入し、Data Shapleyのパフォーマンスがユーティリティ関数に特定の制約を加えることなくランダムな選択に勝ることを示す。
我々は,Data Shapleyが最適にデータを選択するモジュール関数を単調に変換したユーティリティ関数のクラスを同定する。
この知見に基づいて,データ選択タスクにおけるデータ共有の有効性を予測するヒューリスティックを提案する。
我々の実験は、これらの発見を裏付け、Data Shapleyがいつ成功するか、あるいは成功しないか、という新たな洞察を追加します。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。
リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。
従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。
確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文 参考訳(メタデータ) (2023-06-12T15:09:13Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for
Machine Learning [13.66570363867102]
データ共有の相当な一般化であるBeta Shapleyを提案する。
Beta Shapleyは、いくつかの一般的なデータバリュエーションメソッドを統合し、特別なケースとしてデータShapleyを含んでいる。
Beta Shapleyは、いくつかの下流MLタスクにおいて最先端のデータアセスメント手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T22:03:55Z) - A Distributional Framework for Data Valuation [26.065217938868617]
我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
論文 参考訳(メタデータ) (2020-02-27T18:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。