論文の概要: Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning
- arxiv url: http://arxiv.org/abs/2506.12161v1
- Date: Wed, 11 Jun 2025 12:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.30298
- Title: Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning
- Title(参考訳): 自動事前学習とファインタニングのためのメタラーニングと合成データ
- Authors: Fabio Ferreira,
- Abstract要約: 機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。
モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。
この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
- 参考スコア(独自算出の注目度): 2.657867981416885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing number of pretrained models in Machine Learning (ML) presents significant challenges for practitioners. Given a new dataset, they need to determine the most suitable deep learning (DL) pipeline, consisting of the pretrained model and the hyperparameters for finetuning to it. Moreover, as models grow in scale, the increasing reliance on real-world data poses a bottleneck for training and requires leveraging data more effectively. Addressing the first challenge often involves manual model selection and hyperparameter tuning. At the same time, as models grow larger and more and more of the available human-generated data is being used for training, data augmentation and synthetic data become critical elements. Automated machine learning offers a path to address these challenges but is traditionally designed for tabular data and classical ML methods. This dissertation adopts meta-learning to extend automated machine learning to the deep learning domain. We propose empirical approaches to automate DL pipeline selection for Computer Vision tasks using prior task knowledge to learn surrogate models for pipeline ranking. Extending these methods to the language domain, we learn to finetune large language models. As a result, we show that our approach can outperform finetuning foundation models. Additionally, we meta-learn data augmentation and synthetic data to enhance performance in up-stream and down-stream tasks. We empirically show the underestimated importance of data augmentation when using Self-Supervised Learning and meta-learn advanced data augmentation strategies. Leveraging synthetic data, we also propose to meta-learn neural synthetic data generators as proxies for Reinforcement Learning (RL) environments. Additionally, we learn a multiple-environment world model in an in-context learning fashion by purely using synthetic, randomly sampled data.
- Abstract(参考訳): 機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。
新しいデータセットが与えられたら、事前訓練されたモデルとそれに微調整するためのハイパーパラメータで構成される、最も適切なディープラーニング(DL)パイプラインを決定する必要がある。
さらに、モデルが大規模に成長するにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、データをより効果的に活用する必要がある。
最初の課題に対処するには、しばしば手動モデル選択とハイパーパラメータチューニングが必要となる。
同時に、モデルが大きくなり、利用可能な人為的なデータがより多く使用されるようになると、データ拡張と合成データが重要な要素となる。
自動機械学習はこれらの課題に対処するためのパスを提供するが、伝統的に表形式のデータと古典的なMLメソッドのために設計されている。
この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
本稿では,事前タスク知識を用いたコンピュータビジョンタスクにおけるDLパイプライン選択の自動化に関する実証的アプローチを提案し,パイプラインランキングのサロゲートモデルを学習する。
これらの手法を言語領域に拡張することで、我々は大きな言語モデルを微調整することを学ぶ。
その結果,本手法はファウンデーションモデルよりも優れていることがわかった。
さらに、アップストリームおよびダウンストリームタスクにおけるパフォーマンスを向上させるために、メタ学習データ拡張と合成データを作成する。
自己指導型学習とメタ学習型データ拡張戦略を用いる場合,データ拡張の重要性が過小評価されていることを実証的に示す。
また, 合成データを活用することで, 強化学習(RL)環境のプロキシとして, メタ学習型ニューラル合成データ生成器を提案する。
さらに、合成ランダムなサンプルデータを用いて、コンテキスト内学習方式でマルチ環境世界モデルを学習する。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。
提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。
提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-12-06T23:36:36Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models [0.0]
機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
論文 参考訳(メタデータ) (2021-04-02T20:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。