論文の概要: Exploring Data Redundancy in Real-world Image Classification through
Data Selection
- arxiv url: http://arxiv.org/abs/2306.14113v1
- Date: Sun, 25 Jun 2023 03:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:53:21.988569
- Title: Exploring Data Redundancy in Real-world Image Classification through
Data Selection
- Title(参考訳): データ選択による実世界画像分類におけるデータ冗長性の検討
- Authors: Zhenyu Tang, Shaoting Zhang, Xiaosong Wang
- Abstract要約: ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
- 参考スコア(独自算出の注目度): 20.389636181891515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models often require large amounts of data for training,
leading to increased costs. It is particularly challenging in medical imaging,
i.e., gathering distributed data for centralized training, and meanwhile,
obtaining quality labels remains a tedious job. Many methods have been proposed
to address this issue in various training paradigms, e.g., continual learning,
active learning, and federated learning, which indeed demonstrate certain forms
of the data valuation process. However, existing methods are either overly
intuitive or limited to common clean/toy datasets in the experiments. In this
work, we present two data valuation metrics based on Synaptic Intelligence and
gradient norms, respectively, to study the redundancy in real-world image data.
Novel online and offline data selection algorithms are then proposed via
clustering and grouping based on the examined data values. Our online approach
effectively evaluates data utilizing layerwise model parameter updates and
gradients in each epoch and can accelerate model training with fewer epochs and
a subset (e.g., 19%-59%) of data while maintaining equivalent levels of
accuracy in a variety of datasets. It also extends to the offline coreset
construction, producing subsets of only 18%-30% of the original. The codes for
the proposed adaptive data selection and coreset computation are available
(https://github.com/ZhenyuTANG2023/data_selection).
- Abstract(参考訳): ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多いため、コストが増加する。
集中トレーニングのための分散データ収集など、医療イメージングにおいて特に難しい課題である一方で、品質ラベルの取得は依然として退屈な作業である。
例えば、継続学習、アクティブラーニング、フェデレーション学習など、データ評価プロセスの特定の形態を実際に示す様々なトレーニングパラダイムにおいて、この問題に対処するために多くの方法が提案されている。
しかし、既存の方法は非常に直感的か、実験で一般的なクリーン/トイデータセットに制限されている。
本研究では,実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
新たなオンラインおよびオフラインデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
オンラインアプローチでは,各エポックにおける階層型モデルパラメータの更新と勾配を効果的に活用し,さまざまなデータセットで同等の精度を維持しつつ,エポック数とサブセット(19%-59%)を削減したモデルのトレーニングを高速化する。
また、オフラインコアセットの構成にも拡張され、オリジナルの18%-30%のサブセットが生成される。
提案する適応データ選択とコアセット計算のコードは利用可能である(https://github.com/zhenyutang2023/data_selection)。
関連論文リスト
- Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Exploring Federated Deep Learning for Standardising Naming Conventions
in Radiotherapy Data [0.18749305679160366]
放射線治療(RT)データにおける構造容積名の標準化は、データマイニングと分析を可能にするために必要である。
RT患者記録が複数のデータセンターに分散していると考える研究はない。
本稿では,現実の環境をエミュレートして標準化された命名法を提案する。
RTデータをフェデレーション設定で標準化するために,マルチモーダル深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:52:28Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Finding High-Value Training Data Subset through Differentiable Convex
Programming [5.5180456567480896]
本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。
重要なアイデアは、オンラインサブセット選択のための学習可能なフレームワークを設計することです。
このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-28T14:33:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。