Fugu-MT 論文翻訳(概要): A Data-Centric Approach for Training Deep Neural Networks with Less Data

論文の概要: A Data-Centric Approach for Training Deep Neural Networks with Less Data

arxiv url: http://arxiv.org/abs/2110.03613v1
Date: Thu, 7 Oct 2021 16:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-08 15:45:06.730721
Title: A Data-Centric Approach for Training Deep Neural Networks with Less Data
Title（参考訳）: データ少ない深部ニューラルネットワークの訓練のためのデータ中心アプローチ
Authors: Mohammad Motamedi, Nikolay Sakharnykh, Tim Kaldewey
Abstract要約: 本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。小さなデータセットでトレーニング中に発生する課題について論じる。本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
参考スコア（独自算出の注目度）: 1.9014535120129343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the availability of large datasets is perceived to be a key requirement for training deep neural networks, it is possible to train such models with relatively little data. However, compensating for the absence of large datasets demands a series of actions to enhance the quality of the existing samples and to generate new ones. This paper summarizes our winning submission to the "Data-Centric AI" competition. We discuss some of the challenges that arise while training with a small dataset, offer a principled approach for systematic data quality enhancement, and propose a GAN-based solution for synthesizing new data points. Our evaluations indicate that the dataset generated by the proposed pipeline offers 5% accuracy improvement while being significantly smaller than the baseline.
Abstract（参考訳）: 大規模データセットの可用性は、ディープニューラルネットワークのトレーニングにおいて重要な要件であると考えられているが、比較的少ないデータでトレーニングすることが可能である。しかし、大規模なデータセットの欠如を補償するためには、既存のサンプルの品質を高め、新しいデータセットを生成するための一連のアクションが必要である。本稿では,この「データ中心ai」コンペティションへの勝利を要約する。我々は、小さなデータセットでトレーニング中に生じる課題について論じ、体系的なデータ品質向上のための原則的なアプローチを提供し、新しいデータポイントを合成するためのGANベースのソリューションを提案する。評価の結果,提案パイプラインが生成するデータセットは,ベースラインよりもかなり小さく,精度が5%向上することが示された。

関連論文リスト

Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文参考訳（メタデータ） (2025-06-20T00:17:14Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文参考訳（メタデータ） (2024-04-04T13:55:06Z)
Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文参考訳（メタデータ） (2023-09-29T17:37:29Z)
Iterative self-transfer learning: A general methodology for response time-history prediction based on small dataset [0.0]
本研究では,小さなデータセットに基づいてニューラルネットワークを学習するための反復的自己伝達学習手法を提案する。提案手法は,小さなデータセットに対して,ほぼ一桁の精度でモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2023-06-14T18:48:04Z)
Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。本稿ではDDの最近の進歩とその応用について概説する。
論文参考訳（メタデータ） (2023-01-17T17:03:28Z)
A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文参考訳（メタデータ） (2022-03-12T10:50:13Z)
A Deep-Learning Intelligent System Incorporating Data Augmentation for Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文参考訳（メタデータ） (2021-12-05T11:40:54Z)
The Imaginative Generative Adversarial Network: Automatic Data Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文参考訳（メタデータ） (2021-05-27T11:07:09Z)
Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。 KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文参考訳（メタデータ） (2020-10-30T18:54:04Z)
On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文参考訳（メタデータ） (2020-07-16T18:39:04Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。