論文の概要: WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
- arxiv url: http://arxiv.org/abs/2501.18511v1
- Date: Thu, 30 Jan 2025 17:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:02.209087
- Title: WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
- Title(参考訳): WILDCHAT-50M:ポストトレーニングにおける合成データの役割を深く掘り下げる
- Authors: Benjamin Feuer, Chinmay Hegde,
- Abstract要約: 現在までに最大の公開チャットデータセットであるWILDCHAT-50Mを紹介する。
既存のWildChatデータセットを拡張して、0.5Bから104Bパラメータまで、50以上の異なるオープンウェイトモデルのレスポンスを含めます。
我々は大規模な比較分析を行い、我々の公開SFTミックスであるRE-WILDを作成することにより、このデータセットの可能性を示す。
- 参考スコア(独自算出の注目度): 19.483522318459137
- License:
- Abstract: Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.
- Abstract(参考訳): DPOから蒸留まで、言語モデル(LLM)は、振る舞いを洗練させ、新しいスキルを解き放つことができるが、これらのポストトレーニング技術をサポートするオープンサイエンスはまだ初期段階にある。
1つの制限要因は、合成データ生成モデルとLLM判定器の大規模比較分析を行うのが困難であることである。
このギャップを埋めるために、これまでで最大の公開チャットデータセットであるWILDCHAT-50Mを導入する。
既存のWildChatデータセットを拡張して、GPTからの応答だけでなく、0.5Bから104Bパラメータまで、50以上の異なるオープンウェイトモデルから対応します。
我々は大規模な比較分析を行い、我々の公開SFTミックスであるRE-WILDを作成することで、このデータセットの可能性を実証する。
データセット、サンプル、コードはhttps://github.com/penfever/wildchat-50m.comから入手可能です。
関連論文リスト
- No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - ConDistFL: Conditional Distillation for Federated Learning from
Partially Annotated Data [5.210280120905009]
コンディストFL(ConDistFL)は、フェデレートラーニング(FL)と知識蒸留を組み合わせた枠組みである。
我々は,MSDとKITS19の課題から4つの異なる部分的腹部CTデータセットの枠組みを検証した。
本研究は,コンディストFLが頻繁なアグリゲーションを伴わずに良好に機能し,FLの通信コストを低減できることを示唆する。
論文 参考訳(メタデータ) (2023-08-08T06:07:49Z) - Distributionally Robust Classification on a Data Budget [26.69877485937123]
2.4万の画像サンプル上でのクロスエントロピー損失でトレーニングされた標準ResNet-50は、4億の画像サンプルでトレーニングされたCLIP ResNet-50と同等の堅牢性を達成できることを示す。
これは、限られたデータ予算に対して(ほぼ)最先端の分散ロバスト性を示す最初の結果である。
論文 参考訳(メタデータ) (2023-08-07T15:30:02Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Imputing Knowledge Tracing Data with Subject-Based Training via LSTM
Variational Autoencoders Frameworks [6.24828623162058]
我々は,行数分割の代わりに,学生IDによるデータ分割とインプットを行うために,主観的学習手法を採用した。
我々は既存の2つの深い生成フレームワーク、すなわち変分オートエンコーダ(VAE)と変分オートエンコーダ(LVAE)を活用している。
LSTM-VAE と LSTM-LVAE から生成したデータにより,元のモデルの性能を約50%向上できることを示す。
論文 参考訳(メタデータ) (2023-02-24T21:56:03Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。