論文の概要: Combining datasets to increase the number of samples and improve model
fitting
- arxiv url: http://arxiv.org/abs/2210.05165v1
- Date: Tue, 11 Oct 2022 06:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:38:27.370710
- Title: Combining datasets to increase the number of samples and improve model
fitting
- Title(参考訳): データセットを組み合わせることでサンプル数を増やし、モデルフィッティングを改善する
- Authors: Thu Nguyen, Rabindra Khadka, Nhan Phan, Anis Yazidi, P{\aa}l
Halvorsen, Michael A. Riegler
- Abstract要約: 我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
- 参考スコア(独自算出の注目度): 7.4771091238795595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For many use cases, combining information from different datasets can be of
interest to improve a machine learning model's performance, especially when the
number of samples from at least one of the datasets is small. However, a
potential challenge in such cases is that the features from these datasets are
not identical, even though there are some commonly shared features among the
datasets. To tackle this challenge, we propose a novel framework called Combine
datasets based on Imputation (ComImp). In addition, we propose a variant of
ComImp that uses Principle Component Analysis (PCA), PCA-ComImp in order to
reduce dimension before combining datasets. This is useful when the datasets
have a large number of features that are not shared between them. Furthermore,
our framework can also be utilized for data preprocessing by imputing missing
data, i.e., filling in the missing entries while combining different datasets.
To illustrate the power of the proposed methods and their potential usages, we
conduct experiments for various tasks: regression, classification, and for
different data types: tabular data, time series data, when the datasets to be
combined have missing data. We also investigate how the devised methods can be
used with transfer learning to provide even further model training improvement.
Our results indicate that the proposed methods are somewhat similar to transfer
learning in that the merge can significantly improve the accuracy of a
prediction model on smaller datasets. In addition, the methods can boost
performance by a significant margin when combining small datasets together and
can provide extra improvement when being used with transfer learning.
- Abstract(参考訳): 多くのユースケースにおいて、異なるデータセットからの情報を組み合わせることは、特にデータセットの少なくとも1つからのサンプル数が小さい場合に、機械学習モデルのパフォーマンスを改善するために興味深い。
しかし、そのような場合の潜在的な課題は、データセット間で共通の機能があるにもかかわらず、これらのデータセットの特徴が同一ではないことである。
この課題に取り組むため,我々はインプテーションに基づくコンバインドデータセット(comimp)という新しいフレームワークを提案する。
さらに,データ集合を結合する前に次元を減らすために,pca-comimpの原理成分分析(principal component analysis,pca-comimp)を用いたcomimpの変種を提案する。
これはデータセット間で共有されていない多数の機能がある場合に有効である。
さらに、我々のフレームワークは、欠落したデータ、すなわち欠落したエントリを入力し、異なるデータセットを組み合わせることで、データ前処理にも利用できる。
提案手法のパワーとその使用可能性を説明するために, 回帰, 分類, 各種データタイプ(表型データ, 時系列データ, 組み合わせるべきデータセットが欠落している場合)について実験を行った。
また,この手法をトランスファーラーニングに応用し,モデルトレーニングの改善をさらに進める方法について検討した。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上できるため,転送学習に類似していることが示唆された。
さらに、小さなデータセットを組み合わせることで、パフォーマンスをかなりのマージンで向上させ、転送学習で使用する場合、さらに改善することができる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Revisiting Permutation Symmetry for Merging Models between Different
Datasets [3.234560001579257]
異なるデータセット間のマージモデルの特性について検討する。
その結果,統合モデルの精度は,データセットが多様化するにつれて著しく低下することがわかった。
データセットの縮合によって生成された縮合データセットは、元のデータセットの代用として使用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T03:00:34Z) - Neural Network Architecture for Database Augmentation Using Shared
Features [0.0]
医学のような領域では、大きな単一ソースデータセットや同一の機能を持つマルチソースデータセットを作成するのが難しくなる。
本稿では、これらのデータセット間で共通する機能を用いて、データ拡張を提供するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-02T19:17:06Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。