論文の概要: Data Augmentation for Deep Learning Regression Tasks by Machine Learning Models
- arxiv url: http://arxiv.org/abs/2501.03654v1
- Date: Tue, 07 Jan 2025 09:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:04.487851
- Title: Data Augmentation for Deep Learning Regression Tasks by Machine Learning Models
- Title(参考訳): 機械学習モデルによる深層学習回帰作業のためのデータ拡張
- Authors: Assaf Shmuel, Oren Glickman, Teddy Lazebnik,
- Abstract要約: 本稿では,回帰タスクにおける深層学習(DL)モデルの性能向上を目的とした各種データ拡張(DA)手法の提案と評価を行う。
我々は、既存の観測を重複させる単純な方法から、データの基盤となる統計的関係を保存するより洗練されたDA戦略まで、さまざまなDA戦略によるニューラルネットワークの性能向上を比較した。
これらのDA戦略の有効性は、30の異なるデータセットで厳格に検証され、複数のイテレーションと3つの異なる自動ディープラーニング(AutoDL)フレームワークを使用した評価が行われた。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: Deep learning (DL) models have gained prominence in domains such as computer vision and natural language processing but remain underutilized for regression tasks involving tabular data. In these cases, traditional machine learning (ML) models often outperform DL models. In this study, we propose and evaluate various data augmentation (DA) techniques to improve the performance of DL models for tabular data regression tasks. We compare the performance gain of Neural Networks by different DA strategies ranging from a naive method of duplicating existing observations and adding noise to a more sophisticated DA strategy that preserves the underlying statistical relationship in the data. Our analysis demonstrates that the advanced DA method significantly improves DL model performance across multiple datasets and regression tasks, resulting in an average performance increase of over 10\% compared to baseline models without augmentation. The efficacy of these DA strategies was rigorously validated across 30 distinct datasets, with multiple iterations and evaluations using three different automated deep learning (AutoDL) frameworks: AutoKeras, H2O, and AutoGluon. This study demonstrates that by leveraging advanced DA techniques, DL models can realize their full potential in regression tasks, thereby contributing to broader adoption and enhanced performance in practical applications.
- Abstract(参考訳): ディープラーニング(DL)モデルは、コンピュータビジョンや自然言語処理などの領域で注目されているが、表形式のデータを含む回帰処理には未利用のままである。
このような場合、従来の機械学習(ML)モデルはDLモデルを上回っます。
本研究では,表型データ回帰タスクにおけるDLモデルの性能向上のために,様々なデータ拡張(DA)手法を提案し,評価する。
我々は、既存の観測を重複させる単純な方法から、データの基盤となる統計的関係を保存するより洗練されたDA戦略にノイズを加える方法まで、さまざまなDA戦略によるニューラルネットワークの性能向上を比較した。
解析の結果,高度DA法は複数のデータセットおよび回帰タスクにわたるDLモデルの性能を著しく向上させ,その結果,拡張のないベースラインモデルと比較して平均10倍以上の性能向上が得られた。
これらのDA戦略の有効性は、AutoKeras、H2O、AutoGluonの3つの異なる自動ディープラーニング(AutoDL)フレームワークを使用して、30の異なるデータセットで厳格に検証された。
本研究は,高度なDA手法を活用することにより,DLモデルが回帰タスクにおける潜在能力をフルに実現し,実用的なアプリケーションにおいて広く採用され,性能が向上することを示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Data Augmentation for Multivariate Time Series Classification: An Experimental Study [1.5390962520179197]
これらのデータセットのサイズは限られていますが、RocketとInceptionTimeモデルを使用して、13のデータセットのうち10の分類精度を向上しました。
これは、コンピュータビジョンで見られる進歩と並行して、効果的なモデルを訓練する上で、十分なデータの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-10T17:58:02Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。