論文の概要: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- arxiv url: http://arxiv.org/abs/2503.17195v2
- Date: Mon, 23 Jun 2025 09:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.234359
- Title: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- Title(参考訳): TreeSynth:木誘導部分空間分割によるスクラッチからの逆データ合成
- Authors: Sheng Wang, Pengan Chen, Jingqi Zhou, Qintong Li, Jingwei Dong, Jiahui Gao, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu,
- Abstract要約: 決定木にインスパイアされた木誘導サブスペースデータ合成手法であるTREESYNTHを紹介する。
タスク固有の全データ空間を多数のアトミック部分空間に分割するために、空間分割木を構築する。
このグローバルな分割合成法は、最終的にサブスペースサンプルを包括的なデータセットに収集する。
- 参考スコア(独自算出の注目度): 38.72123324093264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model customization necessitates high-quality and diverse datasets, but acquiring such data remains time-consuming and labor-intensive. Despite the great potential of large language models (LLMs) for data synthesis, current approaches are constrained by limited seed data, model biases, and low-variation prompts, resulting in limited diversity and biased distributions with the increase of data scales. To tackle this challenge, we introduce TREESYNTH, a tree-guided subspace-based data synthesis approach inspired by decision trees. It constructs a spatial partitioning tree to recursively divide a task-specific full data space (i.e., root node) into numerous atomic subspaces (i.e., leaf nodes) with mutually exclusive and exhaustive attributes to ensure both distinctiveness and comprehensiveness before synthesizing samples within each atomic subspace. This globally dividing-and-synthesizing method finally collects subspace samples into a comprehensive dataset, effectively circumventing repetition and space collapse to ensure the diversity of large-scale data synthesis. Furthermore, the spatial partitioning tree enables sample allocation into atomic subspaces, allowing the rebalancing of existing datasets for more balanced and comprehensive distributions. Empirically, extensive experiments across diverse benchmarks consistently demonstrate the superior data diversity, model performance, and robust scalability of TREESYNTH compared to both human-crafted datasets and peer data synthesis methods, with an average performance gain reaching 10%. Besides, the consistent improvements of TREESYNTH-balanced datasets highlight its efficacious application to redistribute existing datasets for more comprehensive coverage and the induced performance enhancement. The code is available at https://github.com/cpa2001/TreeSynth.
- Abstract(参考訳): モデルカスタマイズは高品質で多様なデータセットを必要とするが、そのようなデータを取得するには時間と労力を要する。
データ合成のための大きな言語モデル(LLM)の大きな可能性にもかかわらず、現在のアプローチは、限られたシードデータ、モデルバイアス、低変量プロンプトによって制約され、データスケールの増加に伴い、限られた多様性と偏りの分布をもたらす。
この課題に対処するために、決定木にインスパイアされた木誘導サブスペースベースのデータ合成アプローチであるTREESYNTHを導入する。
空間分割木を構築し、タスク固有の全データ空間(ルートノード)を複数の原子部分空間(つまり葉ノード)に再帰的に分割し、各原子部分空間内でサンプルを合成する前に、識別性と包括性を両立させる。
このグローバルな分割合成法は、最終的にサブスペースサンプルを包括的なデータセットに集め、大規模なデータ合成の多様性を確保するために、繰り返しと空間崩壊を効果的に回避する。
さらに、空間分割ツリーは、サンプルを原子部分空間に割り当てることを可能にし、よりバランスよく包括的な分布のための既存のデータセットの再バランスを可能にする。
実証的に、多様なベンチマークにわたる広範な実験は、人為的なデータセットとピアデータ合成手法の両方と比較して、TREESYNTHの優れたデータ多様性、モデルパフォーマンス、堅牢なスケーラビリティを一貫して示しており、平均的なパフォーマンスは10%に達する。
さらに、TREESYNTHバランスの取れたデータセットの一貫性のある改善は、既存のデータセットを再配布し、より包括的なカバレッジとパフォーマンス向上を誘導する効果を強調している。
コードはhttps://github.com/cpa2001/TreeSynth.comで公開されている。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data [59.88075377088134]
合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。
私たちの研究の中心は、700Kシーンからなる手続き的に生成された3DデータセットであるMega Synthです。
実験の結果,Mega Synthとの共同トレーニングや事前トレーニングにより,画像領域間で1.2~1.8dBPSNRの再現性が改善された。
論文 参考訳(メタデータ) (2024-12-18T18:59:38Z) - Hierarchical Conditional Tabular GAN for Multi-Tabular Synthetic Data Generation [0.0]
複雑な多言語データセットから多言語データを合成するアルゴリズムHCTGANを提案する。
提案アルゴリズムは, 深層・複雑な多言語データセットに対して, 大量の合成データをより効率的にサンプリングできることを示す。
我々は,HCTGANアルゴリズムが複雑な関係を持つ深層多言語データセットに対して,大量の合成データを効率的に生成するのに適していると結論付けた。
論文 参考訳(メタデータ) (2024-11-11T14:09:26Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CuTS: Customizable Tabular Synthetic Data Generation [2.184775414778289]
最初にカスタマイズ可能な合成データ生成フレームワークであるCuTSを紹介する。
CuTSは、元のデータセットで事前トレーニングされ、提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。
我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。
論文 参考訳(メタデータ) (2023-07-07T13:10:23Z) - Fusion Subspace Clustering for Incomplete Data [0.0]
本稿では,大規模かつ不完全なデータに近似した低次元構造を学習する新しい手法であるEm fusion Subspace Clusteringを紹介する。
提案手法では,ノイズを直接考慮し,情報理論の限界に近づいた。
実データと合成データに関する広範な実験を通して、我々のアプローチは、完全なデータで最先端と互換性があり、データが欠落している場合、劇的に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-22T17:23:41Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。