論文の概要: DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2411.03250v1
- Date: Tue, 05 Nov 2024 16:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:01.369539
- Title: DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models
- Title(参考訳): DiffLM:拡散言語モデルによる制御可能な合成データ生成
- Authors: Ying Zhou, Xinyao Wang, Yulei Niu, Yaojie Shen, Lexin Tang, Fan Chen, Ben He, Le Sun, Longyin Wen,
- Abstract要約: 可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークDiffLMを紹介する。
我々は,DiffLMが高品質なデータを生成し,ダウンストリームタスクの性能が実データよりも27%向上していることを示す。
- 参考スコア(独自算出の注目度): 38.59653405736706
- License:
- Abstract: Recent advancements in large language models (LLMs) have significantly enhanced their knowledge and generative capabilities, leading to a surge of interest in leveraging LLMs for high-quality data synthesis. However, synthetic data generation via prompting LLMs remains challenging due to LLMs' limited understanding of target data distributions and the complexity of prompt engineering, especially for structured formatted data. To address these issues, we introduce DiffLM, a controllable data synthesis framework based on variational autoencoder (VAE), which further (1) leverages diffusion models to reserve more information of original distribution and format structure in the learned latent distribution and (2) decouples the learning of target distribution knowledge from the LLM's generative objectives via a plug-and-play latent feature injection module. As we observed significant discrepancies between the VAE's latent representations and the real data distribution, the latent diffusion module is introduced into our framework to learn a fully expressive latent distribution. Evaluations on seven real-world datasets with structured formatted data (i.e., Tabular, Code and Tool data) demonstrate that DiffLM generates high-quality data, with performance on downstream tasks surpassing that of real data by 2-7 percent in certain cases. The data and code will be publicly available upon completion of internal review.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、その知識と生成能力を大幅に向上させ、高品質なデータ合成にLLMを活用することへの関心が高まっている。
しかし、LLMの目標データ分布の限定的な理解と、特に構造化されたデータに対して、プロンプトエンジニアリングの複雑さのため、LLMのプロンプトによる合成データ生成は依然として困難である。
これらの問題に対処するため、DiffLMは可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークであり、(1)拡散モデルを利用して学習された潜伏分布における元の分布とフォーマット構造のより多くの情報を予約し、(2)プラグアンドプレイの潜伏特徴注入モジュールを介してLLMの生成目的から目標分布知識の学習を分離する。
VAEの潜伏表現と実データ分布との間に有意な相違が認められたので、潜伏拡散モジュールを我々のフレームワークに導入し、完全に表現可能な潜伏分布を学習した。
構造化されたフォーマットデータ(タブラリ、コード、ツールデータ)を持つ7つの実世界のデータセットの評価は、DiffLMが高品質なデータを生成することを示した。
内部レビューが完了すると、データとコードは公開されます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - NIFTY Financial News Headlines Dataset [14.622656548420073]
NIFTY Financial News Headlines データセットは,大規模言語モデル(LLM)を用いた金融市場予測の促進と進展を目的としている。
i) LLMの教師付き微調整(SFT)を目標とするNIFTY-LMと、(ii) NIFTY-RLと、(人からのフィードバックからの強化学習のような)アライメントメソッドに特化してフォーマットされたNIFTY-RLの2つの異なるモデルアプローチで構成されている。
論文 参考訳(メタデータ) (2024-05-16T01:09:33Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。