論文の概要: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- arxiv url: http://arxiv.org/abs/2503.17195v1
- Date: Fri, 21 Mar 2025 14:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:06.726196
- Title: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- Title(参考訳): TreeSynth:木誘導部分空間分割によるスクラッチからの逆データ合成
- Authors: Sheng Wang, Pengan Chen, Jingqi Zhou, Qintong Li, Jingwei Dong, Jiahui Gao, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータを合成することができるが、現在のアプローチは、限られたシードデータ、モデルバイアス、生成プロセスに対する不十分な制御によって制約される。
Tree Synthは、データ空間全体を階層的な部分空間に分割する木誘導サブスペースベースのデータ合成フレームワークである。
我々の実験は、Tree Synthが人間によって設計されたデータセットと最先端のデータ合成ベースラインの両方を上回ることを示した。
- 参考スコア(独自算出の注目度): 38.72123324093264
- License:
- Abstract: Model customization requires high-quality and diverse datasets, but acquiring such data remains challenging and costly. Although large language models (LLMs) can synthesize training data, current approaches are constrained by limited seed data, model bias and insufficient control over the generation process, resulting in limited diversity and biased distribution with the increase of data scales. To tackle this challenge, we present TreeSynth, a tree-guided subspace-based data synthesis framework that recursively partitions the entire data space into hierar-chical subspaces, enabling comprehensive and diverse scaling of data synthesis. Briefly, given a task-specific description, we construct a data space partitioning tree by iteratively executing criteria determination and subspace coverage steps. This hierarchically divides the whole space (i.e., root node) into mutually exclusive and complementary atomic subspaces (i.e., leaf nodes). By collecting synthesized data according to the attributes of each leaf node, we obtain a diverse dataset that fully covers the data space. Empirically, our extensive experiments demonstrate that TreeSynth surpasses both human-designed datasets and the state-of-the-art data synthesis baselines, achieving maximum improvements of 45.2% in data diversity and 17.6% in downstream task performance across various models and tasks. Hopefully, TreeSynth provides a scalable solution to synthesize diverse and comprehensive datasets from scratch without human intervention.
- Abstract(参考訳): モデルのカスタマイズには高品質で多様なデータセットが必要ですが、そのようなデータを取得することは困難でコストがかかります。
大規模言語モデル(LLM)は、トレーニングデータを合成できるが、現在のアプローチは、限られたシードデータ、モデルバイアス、生成プロセスに対する不十分な制御によって制約される。
この課題に対処するために、ツリー誘導サブスペースベースのデータ合成フレームワークであるTreeSynthを紹介し、データ空間全体を階層的なサブスペースに再帰的に分割し、データ合成の包括的で多様なスケーリングを可能にする。
タスク固有の記述を前提として、基準決定と部分空間カバレッジステップを反復的に実行することで、データ空間分割木を構築する。
この階層的に空間全体(すなわちルートノード)を相互排他的で相補的な原子部分空間(つまり葉ノード)に分割する。
各葉ノードの属性に基づいて合成データを収集することにより、データ空間を完全にカバーする多様なデータセットを得る。
実証的な実験により、TreeSynthは、人間によって設計されたデータセットと最先端のデータ合成ベースラインの両方を超越し、データの多様性が45.2%、ダウンストリームタスクのパフォーマンスが17.6%向上した。
TreeSynthは、人間の介入なしに、スクラッチから多様で包括的なデータセットを合成するためのスケーラブルなソリューションを提供してくれることを願っている。
関連論文リスト
- MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data [59.88075377088134]
合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。
私たちの研究の中心は、700Kシーンからなる手続き的に生成された3DデータセットであるMega Synthです。
実験の結果,Mega Synthとの共同トレーニングや事前トレーニングにより,画像領域間で1.2~1.8dBPSNRの再現性が改善された。
論文 参考訳(メタデータ) (2024-12-18T18:59:38Z) - Hierarchical Conditional Tabular GAN for Multi-Tabular Synthetic Data Generation [0.0]
複雑な多言語データセットから多言語データを合成するアルゴリズムHCTGANを提案する。
提案アルゴリズムは, 深層・複雑な多言語データセットに対して, 大量の合成データをより効率的にサンプリングできることを示す。
我々は,HCTGANアルゴリズムが複雑な関係を持つ深層多言語データセットに対して,大量の合成データを効率的に生成するのに適していると結論付けた。
論文 参考訳(メタデータ) (2024-11-11T14:09:26Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Fusion Subspace Clustering for Incomplete Data [0.0]
本稿では,大規模かつ不完全なデータに近似した低次元構造を学習する新しい手法であるEm fusion Subspace Clusteringを紹介する。
提案手法では,ノイズを直接考慮し,情報理論の限界に近づいた。
実データと合成データに関する広範な実験を通して、我々のアプローチは、完全なデータで最先端と互換性があり、データが欠落している場合、劇的に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-22T17:23:41Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。