論文の概要: Proper Dataset Valuation by Pointwise Mutual Information
- arxiv url: http://arxiv.org/abs/2405.18253v2
- Date: Wed, 12 Feb 2025 06:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:02.268729
- Title: Proper Dataset Valuation by Pointwise Mutual Information
- Title(参考訳): ポイントワイド相互情報による適切なデータセット評価
- Authors: Shuran Zheng, Xuan Qi, Rui Ray Chen, Yongchan Kwon, James Zou,
- Abstract要約: データキュレーション手法を評価するための情報理論フレームワークを提案する。
評価データとテストデータのシャノン相互情報による情報性の比較を行った。
実世界のデータを用いた実験により、我々の相互情報に基づく評価は、データキュレーション戦略に適切に低いスコアを割り当てることを示した。
- 参考スコア(独自算出の注目度): 26.693741797887643
- License:
- Abstract: Data plays a central role in the development of modern artificial intelligence, with high-quality data emerging as a key driver of model performance. This has prompted the development of various data curation methods in recent years. However, measuring the effectiveness of these data curation techniques remains a major challenge. Traditional evaluation methods, which assess a trained model's performance on specific benchmarks, risk promoting practices that merely make the data more similar to the test data. This issue exemplifies Goodhart's law: when a measure becomes a target, it ceases to be a good measure. To address this, we propose an information-theoretic framework for evaluating data curation methods, where dataset quality is measured by its informativeness about the true model parameters using the Blackwell ordering. We compare informativeness by the Shannon mutual information of the evaluated data and the test data, and we propose a novel method for estimating the mutual information of datasets by training Bayesian models on embedded data and computing the mutual information from the model's parameter posteriors. Experiments on real-world data demonstrate that our mutual information-based evaluation assigns appropriately lower scores to data curation strategies that reduce dataset informativeness, while traditional test score-based evaluation methods may favor data curation strategies that overfit to the test set but compromise the training data's informativeness.
- Abstract(参考訳): データは現代の人工知能の発展において中心的な役割を担い、高品質なデータがモデルパフォーマンスの鍵となる。
近年、様々なデータキュレーション手法の開発が進められている。
しかし、これらのデータキュレーション手法の有効性の測定は依然として大きな課題である。
トレーニング済みモデルのパフォーマンスを特定のベンチマークで評価する従来の評価手法は、単にテストデータとよりよく似たデータを作成するリスク促進プラクティスである。
この問題はグッドハートの法則を例示し、ある測度が対象となると、それは良い測度になるのをやめる。
そこで本研究では,データキュレーション手法を評価するための情報理論フレームワークを提案する。
評価データとテストデータのシャノン相互情報による情報量の比較を行い,ベイズモデルによる組込みデータのトレーニングと,モデルのパラメータ後部からの相互情報計算によるデータセットの相互情報推定手法を提案する。
実世界のデータを用いた実験では、データセットの情報量を減らすデータキュレーション戦略に対して、我々の相互情報に基づく評価が適切に低いスコアを割り当てていることが示され、一方、従来のテストスコアベースの評価手法では、テストセットに過度に適合するが、トレーニングデータの情報度を損なうデータキュレーション戦略が好まれる可能性がある。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。
この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文 参考訳(メタデータ) (2024-06-03T08:13:47Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。
我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文 参考訳(メタデータ) (2022-12-19T06:55:42Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。