論文の概要: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- arxiv url: http://arxiv.org/abs/2503.17195v1
- Date: Fri, 21 Mar 2025 14:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:10.479177
- Title: TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
- Title(参考訳): TreeSynth:木誘導部分空間分割によるスクラッチからの逆データ合成
- Authors: Sheng Wang, Pengan Chen, Jingqi Zhou, Qintong Li, Jingwei Dong, Jiahui Gao, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータを合成することができるが、現在のアプローチは、限られたシードデータ、モデルバイアス、生成プロセスに対する不十分な制御によって制約される。
Tree Synthは、データ空間全体を階層的な部分空間に分割する木誘導サブスペースベースのデータ合成フレームワークである。
我々の実験は、Tree Synthが人間によって設計されたデータセットと最先端のデータ合成ベースラインの両方を上回ることを示した。
- 参考スコア(独自算出の注目度): 38.72123324093264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model customization requires high-quality and diverse datasets, but acquiring such data remains challenging and costly. Although large language models (LLMs) can synthesize training data, current approaches are constrained by limited seed data, model bias and insufficient control over the generation process, resulting in limited diversity and biased distribution with the increase of data scales. To tackle this challenge, we present TreeSynth, a tree-guided subspace-based data synthesis framework that recursively partitions the entire data space into hierar-chical subspaces, enabling comprehensive and diverse scaling of data synthesis. Briefly, given a task-specific description, we construct a data space partitioning tree by iteratively executing criteria determination and subspace coverage steps. This hierarchically divides the whole space (i.e., root node) into mutually exclusive and complementary atomic subspaces (i.e., leaf nodes). By collecting synthesized data according to the attributes of each leaf node, we obtain a diverse dataset that fully covers the data space. Empirically, our extensive experiments demonstrate that TreeSynth surpasses both human-designed datasets and the state-of-the-art data synthesis baselines, achieving maximum improvements of 45.2% in data diversity and 17.6% in downstream task performance across various models and tasks. Hopefully, TreeSynth provides a scalable solution to synthesize diverse and comprehensive datasets from scratch without human intervention.
- Abstract(参考訳): モデルのカスタマイズには高品質で多様なデータセットが必要ですが、そのようなデータを取得することは困難でコストがかかります。
大規模言語モデル(LLM)は、トレーニングデータを合成できるが、現在のアプローチは、限られたシードデータ、モデルバイアス、生成プロセスに対する不十分な制御によって制約される。
この課題に対処するために、ツリー誘導サブスペースベースのデータ合成フレームワークであるTreeSynthを紹介し、データ空間全体を階層的なサブスペースに再帰的に分割し、データ合成の包括的で多様なスケーリングを可能にする。
タスク固有の記述を前提として、基準決定と部分空間カバレッジステップを反復的に実行することで、データ空間分割木を構築する。
この階層的に空間全体(すなわちルートノード)を相互排他的で相補的な原子部分空間(つまり葉ノード)に分割する。
各葉ノードの属性に基づいて合成データを収集することにより、データ空間を完全にカバーする多様なデータセットを得る。
実証的な実験により、TreeSynthは、人間によって設計されたデータセットと最先端のデータ合成ベースラインの両方を超越し、データの多様性が45.2%、ダウンストリームタスクのパフォーマンスが17.6%向上した。
TreeSynthは、人間の介入なしに、スクラッチから多様で包括的なデータセットを合成するためのスケーラブルなソリューションを提供してくれることを願っている。
関連論文リスト
- Hierarchical Quantized Diffusion Based Tree Generation Method for Hierarchical Representation and Lineage Analysis [49.00783841494125]
HDTreeは階層的潜在空間内の木関係を、統一的な階層的コードブックと量子化拡散プロセスを用いてキャプチャする。
HDTreeの有効性は、汎用データセットと単一セルデータセットの比較によって示される。
これらの貢献は階層的な系統解析のための新しいツールを提供し、より正確で効率的な細胞分化経路のモデリングを可能にする。
論文 参考訳(メタデータ) (2025-06-29T15:19:13Z) - Hyperbolic Dataset Distillation [39.95016891640128]
深層学習において, コンパクトなデータセットを合成するための新しいハイパーボリックデータセット蒸留法を提案する。
階層構造は蒸留プロセスに明示的に統合され、合成試料を原データ分布の根中心領域へ誘導する。
ハイパーボリック空間におけるプルーニングでは, モデル性能を維持するため, 蒸留コアセットの20%しか必要とせず, トレーニング安定性は著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-05-30T14:14:00Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data [59.88075377088134]
合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。
私たちの研究の中心は、700Kシーンからなる手続き的に生成された3DデータセットであるMega Synthです。
実験の結果,Mega Synthとの共同トレーニングや事前トレーニングにより,画像領域間で1.2~1.8dBPSNRの再現性が改善された。
論文 参考訳(メタデータ) (2024-12-18T18:59:38Z) - Hierarchical Conditional Tabular GAN for Multi-Tabular Synthetic Data Generation [0.0]
複雑な多言語データセットから多言語データを合成するアルゴリズムHCTGANを提案する。
提案アルゴリズムは, 深層・複雑な多言語データセットに対して, 大量の合成データをより効率的にサンプリングできることを示す。
我々は,HCTGANアルゴリズムが複雑な関係を持つ深層多言語データセットに対して,大量の合成データを効率的に生成するのに適していると結論付けた。
論文 参考訳(メタデータ) (2024-11-11T14:09:26Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CuTS: Customizable Tabular Synthetic Data Generation [2.184775414778289]
最初にカスタマイズ可能な合成データ生成フレームワークであるCuTSを紹介する。
CuTSは、元のデータセットで事前トレーニングされ、提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。
我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。
論文 参考訳(メタデータ) (2023-07-07T13:10:23Z) - Tree Variational Autoencoders [5.992683455757179]
本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層的階層クラスタリングモデルを提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
論文 参考訳(メタデータ) (2023-06-15T09:25:04Z) - Fusion Subspace Clustering for Incomplete Data [0.0]
本稿では,大規模かつ不完全なデータに近似した低次元構造を学習する新しい手法であるEm fusion Subspace Clusteringを紹介する。
提案手法では,ノイズを直接考慮し,情報理論の限界に近づいた。
実データと合成データに関する広範な実験を通して、我々のアプローチは、完全なデータで最先端と互換性があり、データが欠落している場合、劇的に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-22T17:23:41Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。