論文の概要: A Data-Centric Approach for Training Deep Neural Networks with Less Data
- arxiv url: http://arxiv.org/abs/2110.03613v1
- Date: Thu, 7 Oct 2021 16:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:45:06.730721
- Title: A Data-Centric Approach for Training Deep Neural Networks with Less Data
- Title(参考訳): データ少ない深部ニューラルネットワークの訓練のためのデータ中心アプローチ
- Authors: Mohammad Motamedi, Nikolay Sakharnykh, Tim Kaldewey
- Abstract要約: 本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。
小さなデータセットでトレーニング中に発生する課題について論じる。
本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
- 参考スコア(独自算出の注目度): 1.9014535120129343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the availability of large datasets is perceived to be a key requirement
for training deep neural networks, it is possible to train such models with
relatively little data. However, compensating for the absence of large datasets
demands a series of actions to enhance the quality of the existing samples and
to generate new ones. This paper summarizes our winning submission to the
"Data-Centric AI" competition. We discuss some of the challenges that arise
while training with a small dataset, offer a principled approach for systematic
data quality enhancement, and propose a GAN-based solution for synthesizing new
data points. Our evaluations indicate that the dataset generated by the
proposed pipeline offers 5% accuracy improvement while being significantly
smaller than the baseline.
- Abstract(参考訳): 大規模データセットの可用性は、ディープニューラルネットワークのトレーニングにおいて重要な要件であると考えられているが、比較的少ないデータでトレーニングすることが可能である。
しかし、大規模なデータセットの欠如を補償するためには、既存のサンプルの品質を高め、新しいデータセットを生成するための一連のアクションが必要である。
本稿では,この「データ中心ai」コンペティションへの勝利を要約する。
我々は、小さなデータセットでトレーニング中に生じる課題について論じ、体系的なデータ品質向上のための原則的なアプローチを提供し、新しいデータポイントを合成するためのGANベースのソリューションを提案する。
評価の結果,提案パイプラインが生成するデータセットは,ベースラインよりもかなり小さく,精度が5%向上することが示された。
関連論文リスト
- How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Iterative self-transfer learning: A general methodology for response
time-history prediction based on small dataset [0.0]
本研究では,小さなデータセットに基づいてニューラルネットワークを学習するための反復的自己伝達学習手法を提案する。
提案手法は,小さなデータセットに対して,ほぼ一桁の精度でモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T18:48:04Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - A Deep-Learning Intelligent System Incorporating Data Augmentation for
Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。
半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。
条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文 参考訳(メタデータ) (2021-12-05T11:40:54Z) - The Imaginative Generative Adversarial Network: Automatic Data
Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action
Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。
以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-27T11:07:09Z) - Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。
KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文 参考訳(メタデータ) (2020-10-30T18:54:04Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。