Fugu-MT 論文翻訳(概要): UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models

論文の概要: UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models

arxiv url: http://arxiv.org/abs/2406.18966v3
Date: Fri, 23 Aug 2024 00:14:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 19:17:18.830191
Title: UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models
Title（参考訳）: UniGen: 大規模言語モデルを用いたテキストデータセット生成のための統一フレームワーク
Authors: Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun,
Abstract要約: UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
参考スコア（独自算出の注目度）: 88.16197692794707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) such as GPT-4 and Llama3 have significantly impacted various fields by enabling high-quality synthetic data generation and reducing dependence on expensive human-generated datasets. Despite this, challenges remain in the areas of generalization, controllability, diversity, and truthfulness within the existing generative frameworks. To address these challenges, this paper presents UniGen, a comprehensive LLM-powered framework designed to produce diverse, accurate, and highly controllable datasets. UniGen is adaptable, supporting all types of text datasets and enhancing the generative process through innovative mechanisms. To augment data diversity, UniGen incorporates an attribute-guided generation module and a group checking feature. For accuracy, it employs a code-based mathematical assessment for label verification alongside a retrieval-augmented generation technique for factual validation. The framework also allows for user-specified constraints, enabling customization of the data generation process to suit particular requirements. Extensive experiments demonstrate the superior quality of data generated by UniGen, and each module within UniGen plays a critical role in this enhancement. Additionally, UniGen is applied in two practical scenarios: benchmarking LLMs and data augmentation. The results indicate that UniGen effectively supports dynamic and evolving benchmarking, and that data augmentation improves LLM capabilities in various domains, including agent-oriented abilities and reasoning skills.
Abstract（参考訳）: GPT-4やLlama3のような大規模言語モデル(LLM)は、高品質な合成データ生成を可能にし、高価な人為的なデータセットへの依存を減らすことで、様々な分野に大きな影響を与えている。それにもかかわらず、課題は、既存の生成フレームワークにおける一般化、制御可能性、多様性、真実性の領域に留まっている。これらの課題に対処するため,本論文では,多種多様で正確かつ高度に制御可能なデータセットを生成するために設計された,総合的なLLMフレームワークであるUniGenを提案する。 UniGenは適応可能で、すべてのタイプのテキストデータセットをサポートし、革新的なメカニズムを通じて生成プロセスを強化する。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。精度向上のために、コードベースの数学的評価をラベル検証に使用し、検索拡張生成技術と併用して、事実検証を行う。フレームワークはまた、特定の要求に合ったデータ生成プロセスのカスタマイズを可能にする、ユーザ指定の制約を可能にする。大規模な実験では、UniGenが生成したデータの優れた品質を示し、UniGen内の各モジュールはこの拡張において重要な役割を果たす。さらに、UniGenはLLMのベンチマークとデータ拡張という2つの実践シナリオに適用されている。その結果、UniGenは動的および進化的なベンチマークを効果的にサポートし、データ拡張はエージェント指向能力や推論スキルなど、さまざまな領域におけるLLM能力を向上することが示された。

関連論文リスト

Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs [7.355858495660162]
DATE(Diversity-Aware Tabular data gEnerator)は、文脈内学習のための高品質で分散的な例を作成するフレームワークである。 DATEはLarge Language Models(LLM)を使用して、分割された分布の多様性をフィードバックとして決定木推論で探索し、各サブセットに対して高品質なラベル付きデータを生成する。 DATEは平均23.75%のエラー率で100のデータしか生成しない。
論文参考訳（メタデータ） (2025-12-26T08:02:51Z)
UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation [70.2215233759276]
UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。 UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
FlexiDataGen: An Adaptive LLM Framework for Dynamic Semantic Dataset Generation in Sensitive Domains [5.062812514858075]
FlexiDataGenは適応型大規模言語モデル(LLM)フレームワークで、センシティブなドメインで動的セマンティックなセマンティックなデータセットを生成するために設計されている。専門分野に合わせて、豊かでセマンティックな一貫性があり、言語的に多様なデータセットを自律的に合成する。 FlexiDataGenはデータ不足やアノテーションのボトルネックを効果的に軽減し、スケーラブルで正確な機械学習モデル開発を可能にします。
論文参考訳（メタデータ） (2025-10-21T19:07:49Z)
Generative Data Refinement: Just Ask for Better Data [19.774236070314963]
トレーニングデータセットは、新たなデータがWeb上でインデックスされるレートよりも速く成長する。公開インデックス化されていないユーザ生成コンテンツとして、さらに多くのデータが存在しているが、そのようなデータの導入にはかなりのリスクが伴う。我々は、事前訓練された生成モデルを使用して、望ましくないコンテンツを持つデータセットを洗練されたデータセットに変換するためのフレームワーク、生成データ精細化(GDR)を紹介する。
論文参考訳（メタデータ） (2025-09-10T14:49:12Z)
Multi-Attribute Constraint Satisfaction via Language Model Rewriting [67.5778646504987]
マルチ属性制約満足度(英: Multi-Attribute Constraint Satisfaction, MACS)は、言語モデルを微調整して、複数の外部実値属性に対するユーザ指定制約を満たす手法である。我々の研究は、NLPやバイオインフォマティクスにまたがる多様な応用に影響を及ぼす、一般化および実値多属性制御のための新しい道を開く。
論文参考訳（メタデータ） (2024-12-26T12:36:39Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。 12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文参考訳（メタデータ） (2024-11-21T06:03:25Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
G-NeuroDAVIS: A Neural Network model for generalized embedding, data visualization and sample generation [0.0]
G-NeuroDAVISと呼ばれる新しい生成モデルは、一般化された埋め込みを通して高次元データを視覚化することができる。 G-NeuroDAVISは教師なしと教師なしの両方の設定で訓練できる。
論文参考訳（メタデータ） (2024-10-18T07:14:08Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [59.60208063956459]
大規模言語モデル(LLM)は、効果的なアライメントのために高品質な命令データを必要とする。本稿では,大規模かつ高品質な符号化命令を合成するスケーラブルなアルゴリズムであるGenematic-Instructを提案する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis [39.57537769578304]
本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。 IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。 IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
論文参考訳（メタデータ） (2024-06-29T07:00:37Z)
MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-06-15T06:26:17Z)
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。 DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文参考訳（メタデータ） (2024-05-16T15:30:18Z)
Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文参考訳（メタデータ） (2024-03-14T08:27:32Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
UniGen: A Unified Generative Framework for Retrieval and Question Answering with Large Language Models [22.457013726785295]
textbfUnified textbfGenerative framework for search and question answering。 UniGenは両方のタスクを単一の生成モデルに統合し、大きな言語モデルの能力を活用する。
論文参考訳（メタデータ） (2023-12-18T09:13:41Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
DIG-MILP: a Deep Instance Generator for Mixed-Integer Linear Programming with Feasibility Guarantee [47.11455377400096]
混合整数線形プログラミング(MILP)は、多くの重要な産業アプリケーションにとって重要なNPハード問題である。可変オートエンコーダ(VAE)に基づく深層生成フレームワークであるDIG-MILPを提案する。
論文参考訳（メタデータ） (2023-10-20T03:45:29Z)
DAGAM: Data Augmentation with Generation And Modification [3.063234089519162]
事前訓練された言語モデルでは、モデルのサイズが非常に大きいため、不適合がしばしば発生する。本稿では,大規模言語モデルの不適合問題を軽減するために,3つのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2022-04-06T07:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。