論文の概要: On the Usage of Gaussian Process for Efficient Data Valuation
- arxiv url: http://arxiv.org/abs/2506.04026v1
- Date: Wed, 04 Jun 2025 14:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.393204
- Title: On the Usage of Gaussian Process for Efficient Data Valuation
- Title(参考訳): 効率的なデータ評価のためのガウス過程の利用について
- Authors: Clément Bénesse, Patrick Mesana, Athénaïs Gautier, Sébastien Gambs,
- Abstract要約: 機械学習では、与えられたダタムがモデルトレーニングに与える影響を知ることは、データバリュエーションと呼ばれる基本的なタスクである。
我々は,データ評価手法を2つの部品の組み合わせとして分析できる新しい標準分解法を設計した。
提案手法の強みは, ベイズ理論の理論的根拠と, 効率的な更新式により評価値の高速な推定を可能にした実用的到達性の両方に起因している。
- 参考スコア(独自算出の注目度): 3.688196752709501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning, knowing the impact of a given datum on model training is a fundamental task referred to as Data Valuation. Building on previous works from the literature, we have designed a novel canonical decomposition allowing practitioners to analyze any data valuation method as the combination of two parts: a utility function that captures characteristics from a given model and an aggregation procedure that merges such information. We also propose to use Gaussian Processes as a means to easily access the utility function on ``sub-models'', which are models trained on a subset of the training set. The strength of our approach stems from both its theoretical grounding in Bayesian theory, and its practical reach, by enabling fast estimation of valuations thanks to efficient update formulae.
- Abstract(参考訳): 機械学習では、与えられたダタムがモデルトレーニングに与える影響を知ることは、データバリュエーションと呼ばれる基本的なタスクである。
文献から得られた先行研究に基づいて,実験者が任意のデータ評価手法を,与えられたモデルから特性をキャプチャするユーティリティ関数と,そのような情報をマージするアグリゲーション手順の組合せとして分析することのできる,新しい標準分解を設計した。
また、トレーニングセットのサブセットでトレーニングされたモデルである ``sub-models'' 上のユーティリティ関数に容易にアクセスする手段として、ガウス過程を用いることを提案する。
提案手法の強みは, ベイズ理論の理論的根拠と, 効率的な更新式により評価値の高速な推定を可能にした実用的到達性の両方に起因している。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。
DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Theoretical Analysis of Learned Database Operations under Distribution Shift through Distribution Learnability [0.8594140167290097]
本稿では、動的データセットにおける学習モデルの性能に関する最初の理論的特徴について述べる。
本結果は,学習モデルによって達成可能な新しい理論特性を示し,モデルの性能に限界を与える。
本分析では,将来,学習したデータベース操作の分析の基礎となる,分散学習可能性フレームワークと新たな理論ツールを開発する。
論文 参考訳(メタデータ) (2024-11-09T17:47:05Z) - Deep Model Interpretation with Limited Data : A Coreset-based Approach [0.810304644344495]
本稿では,コアセット選択手法を用いて,大規模データセットの代表的なサブセットを抽出する,コアセットに基づく解釈フレームワークを提案する。
本稿では,モデル解釈手法のロバスト性を評価するための類似性に基づく評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:07:24Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。