Fugu-MT 論文翻訳(概要): Truthful Dataset Valuation by Pointwise Mutual Information

論文の概要: Truthful Dataset Valuation by Pointwise Mutual Information

arxiv url: http://arxiv.org/abs/2405.18253v1
Date: Tue, 28 May 2024 15:04:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 18:09:42.667937
Title: Truthful Dataset Valuation by Pointwise Mutual Information
Title（参考訳）: ポイントワイド相互情報による真正データセット評価
Authors: Shuran Zheng, Yongchan Kwon, Xuan Qi, James Zou,
Abstract要約: 観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
参考スコア（独自算出の注目度）: 28.63827288801458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A common way to evaluate a dataset in ML involves training a model on this dataset and assessing the model's performance on a test set. However, this approach has two issues: (1) it may incentivize undesirable data manipulation in data marketplaces, as the self-interested data providers seek to modify the dataset to maximize their evaluation scores; (2) it may select datasets that overfit to potentially small test sets. We propose a new data valuation method that provably guarantees the following: data providers always maximize their expected score by truthfully reporting their observed data. Any manipulation of the data, including but not limited to data duplication, adding random data, data removal, or re-weighting data from different groups, cannot increase their expected score. Our method, following the paradigm of proper scoring rules, measures the pointwise mutual information (PMI) of the test dataset and the evaluated dataset. However, computing the PMI of two datasets is challenging. We introduce a novel PMI measuring method that greatly improves tractability within Bayesian machine learning contexts. This is accomplished through a new characterization of PMI that relies solely on the posterior probabilities of the model parameter at an arbitrarily selected value. Finally, we support our theoretical results with simulations and further test the effectiveness of our data valuation method in identifying the top datasets among multiple data providers. Interestingly, our method outperforms the standard approach of selecting datasets based on the trained model's test performance, suggesting that our truthful valuation score can also be more robust to overfitting.
Abstract（参考訳）: MLでデータセットを評価する一般的な方法は、このデータセットでモデルをトレーニングし、テストセットでモデルのパフォーマンスを評価することである。しかし、このアプローチには、(1)データマーケットプレースにおいて望ましくないデータ操作をインセンティブ化する可能性があり、(2)データ提供者がデータセットを変更して評価スコアを最大化すること、(2)潜在的に小さなテストセットに過度に適合するデータセットを選択すること、の2つの問題がある。観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。データ重複、ランダムなデータの追加、データ削除、あるいは異なるグループからのデータの再重み付けを含むデータ操作は、期待されるスコアを上げることはできない。本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。しかし、2つのデータセットのPMIの計算は困難である。ベイジアン機械学習コンテキストにおけるトラクタビリティを大幅に向上させる新しいPMI測定手法を提案する。これは、任意の選択された値でモデルパラメータの後方確率のみに依存するPMIの新たな特徴付けによって達成される。最後に、シミュレーションによる理論的結果をサポートし、複数のデータプロバイダの上位データセットを特定する上で、データ評価手法の有効性をさらに検証する。興味深いことに、本手法はトレーニングされたモデルのテスト性能に基づいてデータセットを選択する標準的な手法よりも優れており、真に評価されたスコアが過度に適合する可能性も高いことが示唆されている。

関連論文リスト

Daunce: Data Attribution through Uncertainty Estimation [7.809316632545256]
トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
論文参考訳（メタデータ） (2025-05-29T08:08:38Z)
Privacy-Preserved Automated Scoring using Federated Learning for Educational Research [1.2556373621040728]
本研究では,教育評価における自動スコアリングのための統合学習フレームワークを提案する。生徒の反応はエッジデバイス上でローカルに処理され、最適化されたモデルパラメータのみが中央集約サーバと共有される。本研究では,9つの中学校における評価データを用いて,従来の学習モデルと統合学習に基づくスコアリングモデルの精度を比較した。
論文参考訳（メタデータ） (2025-03-12T19:06:25Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文参考訳（メタデータ） (2024-10-06T07:56:53Z)
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文参考訳（メタデータ） (2024-09-24T17:20:02Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Personalization of Dataset Retrieval Results using a Metadata-based Data Valuation Method [0.5999777817331317]
アイルランドのナショナル・マッピング・エージェンシーにおいて,データセット検索のための新しいデータ評価手法を提案する。メタデータとユーザの好みを利用して、各データセットの個人価値を推定する。データセットの利害関係者のランキングに対して、データバリューベースのランキングを検証しました。
論文参考訳（メタデータ） (2024-07-22T11:13:07Z)
Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文参考訳（メタデータ） (2024-06-03T08:13:47Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文参考訳（メタデータ） (2024-04-30T13:39:26Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文参考訳（メタデータ） (2023-10-10T13:01:38Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。 OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文参考訳（メタデータ） (2023-06-18T14:38:29Z)
Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。 Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-16T08:03:58Z)
Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文参考訳（メタデータ） (2022-12-19T06:55:42Z)
Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文参考訳（メタデータ） (2022-07-20T13:15:23Z)
Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文参考訳（メタデータ） (2022-03-29T18:58:28Z)
Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文参考訳（メタデータ） (2022-03-24T09:08:05Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文参考訳（メタデータ） (2021-12-19T07:07:15Z)
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。 6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文参考訳（メタデータ） (2020-08-18T11:44:10Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。