論文の概要: Collaborative Prediction: To Join or To Disjoin Datasets
- arxiv url: http://arxiv.org/abs/2506.11271v1
- Date: Thu, 12 Jun 2025 20:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.573825
- Title: Collaborative Prediction: To Join or To Disjoin Datasets
- Title(参考訳): コラボレーション予測: データセットに加入するか、解散するか
- Authors: Kyung Rok Kim, Yansong Wang, Xiaocheng Li, Guanting Chen,
- Abstract要約: 人口減少を最小限に抑えるために適切なデータセットを選択する実用的なアルゴリズムを開発することの課題について検討する。
オラクルの不等式とデータ駆動推定器を活用することにより、アルゴリズムは高い確率で人口減少を低減する。
- 参考スコア(独自算出の注目度): 5.9697789282446605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent rise of generative Artificial Intelligence (AI), the need of selecting high-quality dataset to improve machine learning models has garnered increasing attention. However, some part of this topic remains underexplored, even for simple prediction models. In this work, we study the problem of developing practical algorithms that select appropriate dataset to minimize population loss of our prediction model with high probability. Broadly speaking, we investigate when datasets from different sources can be effectively merged to enhance the predictive model's performance, and propose a practical algorithm with theoretical guarantees. By leveraging an oracle inequality and data-driven estimators, the algorithm reduces population loss with high probability. Numerical experiments demonstrate its effectiveness in both standard linear regression and broader machine learning applications. Code is available at https://github.com/kkrokii/collaborative_prediction.
- Abstract(参考訳): 近年、生成人工知能(AI)の台頭に伴い、機械学習モデルを改善するために高品質なデータセットを選択する必要性が高まっている。
しかし、このトピックのいくつかは、単純な予測モデルであっても、未解明のままである。
本研究では,確率の高い予測モデルの個体群損失を最小限に抑えるために,適切なデータセットを選択する実用的なアルゴリズムを開発することの課題について検討する。
広義的には、予測モデルの性能を高めるために、異なるソースからのデータセットを効果的にマージする方法について検討し、理論的保証のある実用的なアルゴリズムを提案する。
オラクルの不等式とデータ駆動推定器を活用することにより、アルゴリズムは高い確率で人口減少を低減する。
数値実験は、標準的な線形回帰とより広範な機械学習アプリケーションの両方において、その効果を実証する。
コードはhttps://github.com/kkrokii/collaborative_predictionで入手できる。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Hessian-Free Online Certified Unlearning [8.875278412741695]
ほぼ瞬時にデータを除去するオンライン・アンラーニングアルゴリズムを開発した。
提案手法は,非学習および一般化保証の観点から,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Interpretable models for extrapolation in scientific machine learning [0.0]
複雑な機械学習アルゴリズムは、補間的設定において単純な回帰よりも優れていることが多い。
本稿では, モデル性能と解釈可能性のトレードオフを, 幅広い科学・工学的問題にまたがって検討する。
論文 参考訳(メタデータ) (2022-12-16T19:33:28Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Discrete-Valued Latent Preference Matrix Estimation with Graph Side
Information [12.836994708337144]
最適なサンプルの複雑さにマッチするアルゴリズムを開発する。
我々のアルゴリズムはエラーをモデル化し、予測性能の点で既存のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-16T06:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。