論文の概要: GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO
- arxiv url: http://arxiv.org/abs/2508.15432v1
- Date: Thu, 21 Aug 2025 10:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.28164
- Title: GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO
- Title(参考訳): GraSP: SFTとDPOのための、スケーラブルな生成、品質タグ付け、および合成データの管理のための統一的なグラフベースのフレームワーク
- Authors: Bidyapati Pradhan, Surajit Dasgupta, Amit Kumar Saha, Omkar Anustoop, Sriram Puttagunta, Vipul Mittal, Gopal Sarda,
- Abstract要約: 大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
- 参考スコア(独自算出の注目度): 0.10051474951635875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeling complex dialogue flows with minimal manual intervention. This framework uses a dual-stage quality tagging mechanism, combining heuristic rules and LLM-based evaluations, to automatically filter and score data extracted from OASST-formatted conversations, ensuring the curation of high-quality dialogue samples. The resulting datasets are structured under a flexible schema supporting both SFT and DPO use cases, enabling seamless integration into diverse training workflows. Together, these innovations offer a robust solution for generating and managing synthetic conversational data at scale, significantly reducing the overhead of data preparation in LLM training pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、監視ファインチューニング(SFT)のための高品質なデータセットの可用性、直接優先度最適化(DPO)などのアライメントタスクに大きく依存している。
本研究では,これらの学習パラダイムに適した,スケーラブルで構成可能で高忠実な合成データ生成を容易にする総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
このフレームワークは、ヒューリスティックルールとLCMに基づく評価を組み合わせて、OASST形式の会話から抽出したデータを自動フィルタリングし、スコア付けし、高品質な対話サンプルのキュレーションを保証する。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングワークフローへのシームレスな統合を可能にする。
これらのイノベーションは、大規模に合成会話データを生成し管理するための堅牢なソリューションを提供し、LLMトレーニングパイプラインにおけるデータ準備のオーバーヘッドを大幅に削減する。
関連論文リスト
- Large Language Models for Data Synthesis [17.333852085464176]
大規模言語モデル(LLM)は、現実の分布よりも柔軟で高次元の先行性を持つ。
LLM Synthorは、LLMを分布フィードバックによって誘導される構造対応シミュレータに変換するデータ合成のためのフレームワークである。
要約統計空間における相違を最小化することにより、反復合成ループは実データと合成データを整列させる。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文 参考訳(メタデータ) (2025-01-21T10:06:19Z) - ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。