論文の概要: Farzi Data: Autoregressive Data Distillation
- arxiv url: http://arxiv.org/abs/2310.09983v1
- Date: Sun, 15 Oct 2023 23:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:08:53.765217
- Title: Farzi Data: Autoregressive Data Distillation
- Title(参考訳): Farzi Data: 自動回帰データ蒸留
- Authors: Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan
Cheng, Julian McAuley
- Abstract要約: 自動回帰機械学習タスクにおけるデータ蒸留について検討する。
本稿では、イベントシーケンスデータセットを少数の合成シーケンスに要約するFarziを提案する。
- 参考スコア(独自算出の注目度): 34.39112473620335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study data distillation for auto-regressive machine learning tasks, where
the input and output have a strict left-to-right causal structure. More
specifically, we propose Farzi, which summarizes an event sequence dataset into
a small number of synthetic sequences -- Farzi Data -- which are optimized to
maintain (if not improve) model performance compared to training on the full
dataset. Under the hood, Farzi conducts memory-efficient data distillation by
(i) deriving efficient reverse-mode differentiation of the Adam optimizer by
leveraging Hessian-Vector Products; and (ii) factorizing the high-dimensional
discrete event-space into a latent-space which provably promotes implicit
regularization. Empirically, for sequential recommendation and language
modeling tasks, we are able to achieve 98-120% of downstream full-data
performance when training state-of-the-art models on Farzi Data of size as
little as 0.1% of the original dataset. Notably, being able to train better
models with significantly less data sheds light on the design of future large
auto-regressive models, and opens up new opportunities to further scale up
model and data sizes.
- Abstract(参考訳): 入力と出力が厳格な左右因果構造を持つ自動回帰機械学習タスクのデータ蒸留について検討した。
具体的には,イベントシーケンスデータセットを少数の合成シーケンス – Farzi Data – に要約したFarziを提案する。
内部では、Farziはメモリ効率のよいデータ蒸留を行う。
(i)hessian-vector積を利用したadamオプティマイザの効率的な逆モード分化の導出
2) 高次元離散事象空間を潜在空間に分解し、暗黙の正規化を促進する。
実証的には、シーケンシャルなレコメンデーションと言語モデリングタスクのために、Farzi Dataで最先端モデルをトレーニングする際に、98~120%のダウンストリームフルデータパフォーマンスを、元のデータセットの0.1%以下で達成できます。
特に、より少ないデータでより良いモデルをトレーニングできることは、将来の大規模な自動回帰モデルの設計に光を当て、モデルとデータサイズをさらに拡大する新たな機会を開く。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key [3.3339400603549265]
トレーニングデータインスタンスと計算処理の少ないチューニングモデルにおいて,顕著なパフォーマンス向上を実現することができることを示す。
本研究の結果から, 長期出力のキャパシティは, 既成モデルによって異なるが, 定性計算を用いて高品質なデータに調整するアプローチは, 実験したすべてのモデルに対して, 常に顕著な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2024-10-14T07:09:02Z) - SSE: Multimodal Semantic Data Selection and Enrichment for Industrial-scale Data Assimilation [29.454948190814765]
近年、人工知能のために収集されたデータは、管理不能な量に成長している。
セマンティックに多様で重要なデータセット部分を選択するためのフレームワークを提案する。
巨大なラベルのないデータプールから意味のある新しいデータを発見することで、さらにセマンティックに強化します。
論文 参考訳(メタデータ) (2024-09-20T19:17:52Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。
DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文 参考訳(メタデータ) (2024-05-16T15:30:18Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。