論文の概要: DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation
- arxiv url: http://arxiv.org/abs/2404.00264v1
- Date: Sat, 30 Mar 2024 06:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:40:03.645486
- Title: DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation
- Title(参考訳): DiLM:テキストレベルのデータセット蒸留のための言語モデルへのデータセットの蒸留
- Authors: Aru Maekawa, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura,
- Abstract要約: 本稿では,Distilling dataset into Language Model (DiLM) と呼ばれる新しいテキストデータセット蒸留手法を提案する。
DiLMは、合成サンプルを直接最適化するのではなく、テキストデータとして情報的合成トレーニングサンプルを生成するために、言語モデルを訓練する。
私たちのコードはhttps://github.com/arumaekawa/DiLM.comで公開されます。
- 参考スコア(独自算出の注目度): 20.703102374139537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to compress a training dataset by creating a small number of informative synthetic samples such that neural networks trained on them perform as well as those trained on the original training dataset. Current text dataset distillation methods create each synthetic sample as a sequence of word embeddings instead of a text to apply gradient-based optimization; however, such embedding-level distilled datasets cannot be used for training other models whose word embedding weights are different from the model used for distillation. To address this issue, we propose a novel text dataset distillation approach, called Distilling dataset into Language Model (DiLM), which trains a language model to generate informative synthetic training samples as text data, instead of directly optimizing synthetic samples. We evaluated DiLM on various text classification datasets and showed that distilled synthetic datasets from DiLM outperform those from current coreset selection methods. DiLM achieved remarkable generalization performance in training different types of models and in-context learning of large language models. Our code will be available at https://github.com/arumaekawa/DiLM.
- Abstract(参考訳): データセットの蒸留は、トレーニングデータセット上でトレーニングされたニューラルネットワークと、オリジナルのトレーニングデータセットでトレーニングされたデータセットを実行するような、少数の情報的合成サンプルを作成することで、トレーニングデータセットを圧縮することを目的としている。
現在のテキストデータセット蒸留法は, テキストの代わりに単語埋め込みのシーケンスとして各合成サンプルを作成し, 勾配に基づく最適化を適用するが, 単語埋め込み重量が異なる他のモデルの訓練にはそのような埋め込みレベルの蒸留データセットは使用できない。
そこで本研究では,合成サンプルを直接最適化するのではなく,テキストデータとして情報的合成学習サンプルを生成するための言語モデルを訓練する,Distilling dataset into Language Model (DiLM) と呼ばれる新しいテキストデータセット蒸留手法を提案する。
各種テキスト分類データセットを用いてDLMを評価した結果,DLMから抽出した合成データセットは,現在のコアセット選択法よりも優れていた。
DiLMは、異なるタイプのモデルのトレーニングや、大規模言語モデルのコンテキスト内学習において、顕著な一般化性能を達成した。
私たちのコードはhttps://github.com/arumaekawa/DiLM.comで公開されます。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Advancing Semi-Supervised Learning for Automatic Post-Editing: Data-Synthesis by Mask-Infilling with Erroneous Terms [5.366354612549173]
高品質な合成データを作成するためのデータ合成手法に着目する。
本稿では,結果の合成データが実際のデータにある翻訳誤りを模倣するデータ合成手法を提案する。
実験結果から, 提案手法により生成した合成データを用いることで, 既存の合成データよりもAPEの性能が有意に向上することがわかった。
論文 参考訳(メタデータ) (2022-04-08T07:48:57Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。