論文の概要: GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2505.20416v1
- Date: Mon, 26 May 2025 18:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.232654
- Title: GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation
- Title(参考訳): GraphGen:知識駆動型合成データ生成によるLLMのための教師付きファインチューニングの強化
- Authors: Zihong Chen, Wanli Jiang, Jinzhe Li, Zhonghang Yuan, Huanjun Kong, Wanli Ouyang, Nanqing Dong,
- Abstract要約: 大規模言語モデル(LLM)の微調整は通常、かなりの量の高品質な教師付きデータを必要とする。
既存のアプローチは、事実的不正確さ、不十分なロングテールカバレッジ、単純化された知識構造、均質化された出力に悩まされている。
GraphGenは3つの主要な質問回答(QA)シナリオ用に設計された知識グラフ誘導フレームワークである。
- 参考スコア(独自算出の注目度): 41.31575016578663
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning for large language models (LLMs) typically requires substantial amounts of high-quality supervised data, which is both costly and labor-intensive to acquire. While synthetic data generation has emerged as a promising solution, existing approaches frequently suffer from factual inaccuracies, insufficient long-tail coverage, simplistic knowledge structures, and homogenized outputs. To address these challenges, we introduce GraphGen, a knowledge graph-guided framework designed for three key question-answering (QA) scenarios: atomic QA, aggregated QA, and multi-hop QA. It begins by constructing a fine-grained knowledge graph from the source text. It then identifies knowledge gaps in LLMs using the expected calibration error metric, prioritizing the generation of QA pairs that target high-value, long-tail knowledge. Furthermore, GraphGen incorporates multi-hop neighborhood sampling to capture complex relational information and employs style-controlled generation to diversify the resulting QA data. Experimental results on knowledge-intensive tasks under closed-book settings demonstrate that GraphGen outperforms conventional synthetic data methods, offering a more reliable and comprehensive solution to the data scarcity challenge in supervised fine-tuning. The code and data are publicly available at https://github.com/open-sciencelab/GraphGen.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整は通常、かなりの量の高品質な教師付きデータを必要とする。
合成データ生成は有望な解決法として現れてきたが、既存のアプローチは事実的不正確さ、長期カバー不足、単純化された知識構造、ホモジェナイズドアウトプットにしばしば悩まされている。
これらの課題に対処するために、我々は3つの主要なQAシナリオ(アトミックQA、集約QA、マルチホップQA)のために設計された知識グラフ誘導フレームワークであるGraphGenを紹介した。
それは、ソーステキストからきめ細かい知識グラフを構築することから始まる。
すると、LLMの知識ギャップをキャリブレーション誤差測定値を用いて識別し、高い値の長い知識をターゲットとするQAペアの生成を優先順位付けする。
さらに、GraphGenは複雑なリレーショナル情報をキャプチャするためにマルチホップ近傍サンプリングを導入し、結果のQAデータを多様化するためにスタイル制御された生成を採用する。
クローズドブック設定下での知識集約タスクの実験結果は、GraphGenが従来の合成データ手法より優れており、教師付き微調整におけるデータ不足に対するより信頼性が高く包括的なソリューションを提供することを示している。
コードとデータはhttps://github.com/open-sciencelab/GraphGenで公開されている。
関連論文リスト
- GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing [24.685942503019948]
本稿では,大言語モデル(LLM)のパワーを生かした新しい手法を提案する。
筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。
LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。
論文 参考訳(メタデータ) (2024-03-31T07:38:39Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - GenQ: Quantization in Low Data Regimes with Generative Synthetic Data [28.773641633757283]
我々は、高度な生成AIモデルを用いて高分解能合成データを生成する新しいアプローチであるGenQを紹介する。
データの可用性が限られている場合、実際のデータは合成データ生成プロセスのガイドに使用される。
厳密な実験を通じて、GenQはデータフリーおよびデータスカース量子化の新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2023-12-07T23:31:42Z) - Exploring the Viability of Synthetic Query Generation for Relevance
Prediction [18.77909480819682]
本研究は,QGen のアプローチを不確実性予測に活用する方法について検討する。
既存のQGenアプローチの新たな欠点 - 関連性の異なるグレードを区別できないことなど - を特定します。
異なる関連性に関する知識を取り入れたラベル粒度のQGenモデルを提案する。
論文 参考訳(メタデータ) (2023-05-19T18:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。