Fugu-MT 論文翻訳(概要): Data augmentation with automated machine learning: approaches and performance comparison with classical data augmentation methods

論文の概要: Data augmentation with automated machine learning: approaches and performance comparison with classical data augmentation methods

arxiv url: http://arxiv.org/abs/2403.08352v1
Date: Wed, 13 Mar 2024 09:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 15:16:17.941078
Title: Data augmentation with automated machine learning: approaches and performance comparison with classical data augmentation methods
Title（参考訳）: 自動機械学習によるデータ拡張 - アプローチと方法古典的データ拡張手法による性能比較
Authors: Alhassan Mumuni and Fuseini Mumuni
Abstract要約: 最先端のアプローチは一般的に、自動機械学習(AutoML)の原則に依存します。本稿では,AutoMLに基づくデータ拡張技術に関する総合的な調査を紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data augmentation is arguably the most important regularization technique commonly used to improve generalization performance of machine learning models. It primarily involves the application of appropriate data transformation operations to create new data samples with desired properties. Despite its effectiveness, the process is often challenging because of the time-consuming trial and error procedures for creating and testing different candidate augmentations and their hyperparameters manually. Automated data augmentation methods aim to automate the process. State-of-the-art approaches typically rely on automated machine learning (AutoML) principles. This work presents a comprehensive survey of AutoML-based data augmentation techniques. We discuss various approaches for accomplishing data augmentation with AutoML, including data manipulation, data integration and data synthesis techniques. We present extensive discussion of techniques for realizing each of the major subtasks of the data augmentation process: search space design, hyperparameter optimization and model evaluation. Finally, we carried out an extensive comparison and analysis of the performance of automated data augmentation techniques and state-of-the-art methods based on classical augmentation approaches. The results show that AutoML methods for data augmentation currently outperform state-of-the-art techniques based on conventional approaches.
Abstract（参考訳）: データ拡張は、機械学習モデルの一般化性能を改善するために一般的に使用される最も重要な正規化技術であることは間違いない。主に、望ましいプロパティを持つ新しいデータサンプルを作成するために、適切なデータ変換操作を適用する。有効性にもかかわらず、このプロセスは、異なる候補拡張とそれらのハイパーパラメータを手動で作成し、テストするための時間を要する試行錯誤手順のため、しばしば困難である。自動データ拡張手法はプロセスの自動化を目的としている。最先端のアプローチは一般的に、自動機械学習(AutoML)の原則に依存します。本稿では,AutoMLに基づくデータ拡張技術に関する総合的な調査を紹介する。本稿では、データ操作、データ統合、データ合成技術など、AutoMLでデータ拡張を実現するための様々なアプローチについて論じる。本稿では、探索空間設計、ハイパーパラメータ最適化、モデル評価など、データ拡張プロセスの各主要なサブタスクを実現するための手法について広範な議論を行う。最後に,従来の拡張手法に基づく自動データ拡張手法と最先端手法の性能の比較と解析を行った。その結果,データ拡張のためのAutoML手法は,従来の手法による最先端技術よりも優れていることがわかった。

関連論文リスト

Curvature Enhanced Data Augmentation for Regression [4.910937238451485]
回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。 CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-06-07T16:18:37Z)
Shifting AI Efficiency From Model-Centric to Data-Centric Compression [67.45087283924732]
AI研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と私たちは主張する。データ中心圧縮は、モデルトレーニングや推論中に処理されたデータのボリュームを直接圧縮することで、AI効率を向上させる。我々の研究は、AIの効率性に関する新たな視点を提供し、既存の取り組みを合成し、コンテキスト長の増大によって引き起こされる課題に対処するためにイノベーションを触媒することを目的としています。
論文参考訳（メタデータ） (2025-05-25T13:51:17Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Augmentation Policy Generation for Image Classification Using Large Language Models [3.038642416291856]
本稿では,大規模言語モデルを用いて効率的な拡張ポリシーを自動生成する戦略を提案する。提案手法は医用画像データセットを用いて評価され,最先端の手法よりも明確な改善が見られた。
論文参考訳（メタデータ） (2024-10-17T11:26:10Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文参考訳（メタデータ） (2024-03-18T01:07:48Z)
AutoCure: Automated Tabular Data Curation Technique for ML Pipelines [0.0]
本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
論文参考訳（メタデータ） (2023-04-26T15:51:47Z)
AutoEn: An AutoML method based on ensembles of predefined Machine Learning pipelines for supervised Traffic Forecasting [1.6242924916178283]
交通予測(TF)は、将来の交通状況を予測することで交通渋滞を緩和する能力により、関連性が高まっている。 TFは、モデル選択問題(MSP)として知られる機械学習パラダイムに大きな課題を提起する。事前に定義されたMLパイプラインの集合からマルチクラス化アンサンブルを自動生成する,シンプルで効率的な手法であるAutoEnを紹介する。
論文参考訳（メタデータ） (2023-03-19T18:37:18Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文参考訳（メタデータ） (2021-02-16T17:50:51Z)
Improving the Performance of Fine-Grain Image Classifiers via Generative Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。 DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文参考訳（メタデータ） (2020-08-12T15:29:11Z)
Learning Data Augmentation with Online Bilevel Optimization for Image Classification [14.488360021440448]
本稿では,その一般化を改善するために,変換の効果的な分布を学習するネットワークを自動的に訓練する効率的な手法を提案する。共同学習法は手作業によるデータ拡張に匹敵する画像分類精度が得られた。
論文参考訳（メタデータ） (2020-06-25T21:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。