論文の概要: DIVA: Dataset Derivative of a Learning Task
- arxiv url: http://arxiv.org/abs/2111.09785v1
- Date: Thu, 18 Nov 2021 16:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:46:23.914030
- Title: DIVA: Dataset Derivative of a Learning Task
- Title(参考訳): DIVA: 学習課題から派生したデータセット
- Authors: Yonatan Dukler, Alessandro Achille, Giovanni Paolini, Avinash
Ravichandran, Marzia Polito, Stefano Soatto
- Abstract要約: 本稿では,データセットに関する学習課題の微分を計算する手法を提案する。
学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。
は、トレーニングされたモデルを中心に計算され、各トレーニングサンプルの重みの外れ値がバリデーションエラーにどのように影響するかを知らせる線形演算子である。
- 参考スコア(独自算出の注目度): 108.18912044384213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to compute the derivative of a learning task with respect
to a dataset. A learning task is a function from a training set to the
validation error, which can be represented by a trained deep neural network
(DNN). The "dataset derivative" is a linear operator, computed around the
trained model, that informs how perturbations of the weight of each training
sample affect the validation error, usually computed on a separate validation
dataset. Our method, DIVA (Differentiable Validation) hinges on a closed-form
differentiable expression of the leave-one-out cross-validation error around a
pre-trained DNN. Such expression constitutes the dataset derivative. DIVA could
be used for dataset auto-curation, for example removing samples with faulty
annotations, augmenting a dataset with additional relevant samples, or
rebalancing. More generally, DIVA can be used to optimize the dataset, along
with the parameters of the model, as part of the training process without the
need for a separate validation dataset, unlike bi-level optimization methods
customary in AutoML. To illustrate the flexibility of DIVA, we report
experiments on sample auto-curation tasks such as outlier rejection, dataset
extension, and automatic aggregation of multi-modal data.
- Abstract(参考訳): 本稿では,データセットに対する学習タスクの導出を計算する手法を提案する。
学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。
データセット微分(dataset derivative)は、トレーニングされたモデル周りで計算された線形作用素であり、各トレーニングサンプルの重みの摂動が検証エラーにどのように影響するかを知らせる。
本手法は, 事前学習したDNNの周囲の残余のクロスバリデーション誤差を, クローズドフォームで微分可能な表現に基づいて評価する。
このような表現はデータセットデリバティブを構成する。
例えば、欠陥のあるアノテーション付きのサンプルの削除、関連するサンプルの追加によるデータセットの強化、再バランスなどだ。
より一般的には、divaはトレーニングプロセスの一部としてモデルのパラメータとともにデータセットの最適化に使用できるが、automlでカスタム化されたbiレベル最適化メソッドとは異なり、個別の検証データセットは必要ない。
divaの柔軟性を説明するために,outlier reject,dataset extension,およびmulti-modal dataの自動集約など,自動調達タスクのサンプルについて実験を行った。
関連論文リスト
- Derivative-based regularization for regression [3.0408645115035036]
多変数回帰問題における正規化に対する新しいアプローチを導入する。
我々の正規化器はDLossと呼ばれ、トレーニングデータから推定したモデル導関数とデータ生成関数の導関数の違いを解析する。
論文 参考訳(メタデータ) (2024-05-01T14:57:59Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Data Provenance via Differential Auditing [5.7962871424710665]
本稿では,データ提示を監査するための実践的フレームワークである差分監査(DPDA)によるデータ公開について紹介する。
本稿では,2つの効果的な監査機能実装,加算関数と乗算関数を提案する。
提案手法の有効性を示す実世界のデータセットの評価について報告する。
論文 参考訳(メタデータ) (2022-09-04T06:02:25Z) - A Penalty Approach for Normalizing Feature Distributions to Build
Confounder-Free Models [11.818509522227565]
MetaData Normalization (MDN) は、学習不能なクローズドフォームソリューションに基づいてメタデータと各特徴の線形関係を推定する。
罰則法(PDMN)を適用してMDN法を拡張した。
MDNによるモデル精度の向上とMDN上のMDNを用いた共同設立者からの独立性の向上を示す。
論文 参考訳(メタデータ) (2022-07-11T04:02:12Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。