論文の概要: CheckSel: Efficient and Accurate Data-valuation Through Online
Checkpoint Selection
- arxiv url: http://arxiv.org/abs/2203.06814v1
- Date: Mon, 14 Mar 2022 02:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:53:30.273791
- Title: CheckSel: Efficient and Accurate Data-valuation Through Online
Checkpoint Selection
- Title(参考訳): checkel: オンラインチェックポイント選択による効率的かつ正確なデータ評価
- Authors: Soumi Das, Manasvi Sagarkar, Suparna Bhattacharya, Sourangshu
Bhattacharya
- Abstract要約: 本稿では,データアセスメントとサブセット選択の問題に対して,新しい2段階の解を提案する。
フェーズ1は、SGDライクなトレーニングアルゴリズムから代表チェックポイントを選択し、フェーズ2で使用して、近似トレーニングデータ値を推定する。
実験結果から,提案アルゴリズムは試験精度において,最近のベースライン法を最大30%上回る性能を示した。
- 参考スコア(独自算出の注目度): 3.321404824316694
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data valuation and subset selection have emerged as valuable tools for
application-specific selection of important training data. However, the
efficiency-accuracy tradeoffs of state-of-the-art methods hinder their
widespread application to many AI workflows. In this paper, we propose a novel
2-phase solution to this problem. Phase 1 selects representative checkpoints
from an SGD-like training algorithm, which are used in phase-2 to estimate the
approximate training data values, e.g. decrease in validation loss due to each
training point. A key contribution of this paper is CheckSel, an Orthogonal
Matching Pursuit-inspired online sparse approximation algorithm for checkpoint
selection in the online setting, where the features are revealed one at a time.
Another key contribution is the study of data valuation in the domain
adaptation setting, where a data value estimator obtained using checkpoints
from training trajectory in the source domain training dataset is used for data
valuation in a target domain training dataset. Experimental results on
benchmark datasets show the proposed algorithm outperforms recent baseline
methods by up to 30% in terms of test accuracy while incurring a similar
computational burden, for both standalone and domain adaptation settings.
- Abstract(参考訳): データ評価とサブセット選択は、重要なトレーニングデータのアプリケーション固有の選択のための貴重なツールとして現れてきた。
しかし、最先端の手法の効率と精度のトレードオフは、多くのAIワークフローへの広く適用を妨げる。
本稿では,この問題に対する新しい二相解法を提案する。
フェーズ1は、フェーズ2で使用されるsgdライクなトレーニングアルゴリズムから代表チェックポイントを選択し、各トレーニングポイントによる検証損失の減少など、近似トレーニングデータ値を推定する。
この論文の主な貢献は、オンライン環境でのチェックポイント選択のための直交マッチングに触発されたオンラインスパース近似アルゴリズムであるcheckelである。
もうひとつの重要な貢献は、ドメイン適応設定におけるデータバリュエーションの研究であり、ソースドメイントレーニングデータセットのトレーニング軌跡からチェックポイントを用いて得られたデータ値推定器が、ターゲットドメイントレーニングデータセットにおけるデータバリュエーションに使用される。
ベンチマークデータセットによる実験結果から,提案アルゴリズムは,テスト精度を最大30%向上させるとともに,スタンドアロンおよびドメイン適応設定でも同様の計算負担を発生させる。
関連論文リスト
- Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。