論文の概要: Model-specific Data Subsampling with Influence Functions
- arxiv url: http://arxiv.org/abs/2010.10218v1
- Date: Tue, 20 Oct 2020 12:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:45:04.451621
- Title: Model-specific Data Subsampling with Influence Functions
- Title(参考訳): 影響関数を用いたモデル固有データサブサンプリング
- Authors: Anant Raj and Cameron Musco and Lester Mackey and Nicolo Fusi
- Abstract要約: トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
- 参考スコア(独自算出の注目度): 37.64859614131316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model selection requires repeatedly evaluating models on a given dataset and
measuring their relative performances. In modern applications of machine
learning, the models being considered are increasingly more expensive to
evaluate and the datasets of interest are increasing in size. As a result, the
process of model selection is time-consuming and computationally inefficient.
In this work, we develop a model-specific data subsampling strategy that
improves over random sampling whenever training points have varying influence.
Specifically, we leverage influence functions to guide our selection strategy,
proving theoretically, and demonstrating empirically that our approach quickly
selects high-quality models.
- Abstract(参考訳): モデル選択には、与えられたデータセット上のモデルを繰り返し評価し、相対的なパフォーマンスを測定する必要がある。
現代の機械学習の応用において、考慮されているモデルの評価はますます高くなり、関心のあるデータセットのサイズが増加している。
その結果、モデル選択のプロセスは時間がかかり、計算効率が低下する。
本研究では,学習点に異なる影響がある場合,ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を利用して選択戦略を指導し、理論的に証明し、我々のアプローチが素早く高品質のモデルを選択できることを実証します。
関連論文リスト
- A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Deep Learning for Choice Modeling [5.173001988341294]
我々は,機能フリーと機能ベースという2つの選択モデルに基づいて,ディープラーニングに基づく選択モデルを構築した。
本モデルでは,候補選択に対する本質的効用と,候補選択が選択確率に与える影響の両方を捉える。
論文 参考訳(メタデータ) (2022-08-19T13:10:17Z) - fETSmcs: Feature-based ETS model component selection [8.99236558175168]
シミュレーションデータに基づく分類器の訓練によるETSモデル選択の効率的な手法を提案し, 与えられた時系列に対する適切なモデル成分の予測を行う。
提案手法は,広く使用されている予測競合データセットM4に対して,点予測と予測間隔の両面から評価する。
論文 参考訳(メタデータ) (2022-06-26T13:52:43Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。