論文の概要: InvertiTune: High-Quality Data Synthesis for Cost-Effective Single-Shot Text-to-Knowledge Graph Generation
- arxiv url: http://arxiv.org/abs/2512.03197v1
- Date: Tue, 02 Dec 2025 19:51:28 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:47.53507
- Title: InvertiTune: High-Quality Data Synthesis for Cost-Effective Single-Shot Text-to-Knowledge Graph Generation
- Title(参考訳): InvertiTune: コスト効果のあるシングルショットテキスト-知識グラフ生成のための高品質データ合成
- Authors: Faezeh Faez, Marzieh S. Tahaei, Yaochen Hu, Ali Pourranjbar, Mahdi Biparva, Mark Coates, Yingxue Zhang,
- Abstract要約: InvertiTuneは、制御されたデータ生成パイプラインと教師付き微調整を組み合わせたフレームワークである。
InvertiTuneは、最先端のText2KGアプローチと同様に、大型の非微調整LDMよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.34499569359914
- License:
- Abstract: Large Language Models (LLMs) have revolutionized the ability to understand and generate text, enabling significant progress in automatic knowledge graph construction from text (Text2KG). Many Text2KG methods, however, rely on iterative LLM prompting, making them computationally expensive and prone to overlooking complex relations distributed throughout the text. To address these limitations, we propose InvertiTune, a framework that combines a controlled data generation pipeline with supervised fine-tuning (SFT). Within this framework, the data-generation pipeline systematically extracts subgraphs from large knowledge bases, applies noise filtering, and leverages LLMs to generate corresponding natural text descriptions, a task more aligned with LLM capabilities than direct KG generation from text. This pipeline enables generating datasets composed of longer texts paired with larger KGs that better reflect real-world scenarios compared to existing benchmarks, thus supporting effective SFT of lightweight models for single-shot KG construction. Experimental results on CE12k, a dataset generated using the introduced pipeline, show that InvertiTune outperforms larger non-fine-tuned LLMs as well as state-of-the-art Text2KG approaches, while also demonstrating stronger cross-dataset generalization on CrossEval-1200, a test set created from three established benchmark datasets and CE12k. These findings highlight the importance of realistic, high-quality training data for advancing efficient and high-performing Text2KG systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストの理解と生成能力に革命をもたらし、テキスト(Text2KG)からの知識グラフ構築の大幅な進歩を可能にした。
しかし、多くの Text2KG メソッドは反復的な LLM のプロンプトに依存しており、計算コストが高く、テキスト全体に分散する複雑な関係を見渡す傾向にある。
これらの制限に対処するため,制御されたデータ生成パイプラインと教師付き微調整(SFT)を組み合わせたフレームワークであるInvertiTuneを提案する。
このフレームワーク内で、データ生成パイプラインは、大規模な知識ベースからサブグラフを体系的に抽出し、ノイズフィルタリングを適用し、LLMを活用して対応する自然なテキスト記述を生成する。
このパイプラインは、既存のベンチマークと比較して現実のシナリオをよりよく反映する、より大きなKGと組み合わせた長いテキストからなるデータセットを生成することができるため、シングルショットKG構築のための軽量モデルの効率的なSFTをサポートする。
InvertiTuneは、既存の3つのベンチマークデータセットとCE12kから生成されたテストセットであるCrossEval-1200上で、より強力なクロスデータセットの一般化を示すとともに、最先端のText2KGアプローチと同様に、非微調整のLLMよりも優れたパフォーマンスを示す。
これらの結果は,高効率かつ高性能なText2KGシステムを実現するための,現実的,高品質なトレーニングデータの重要性を強調している。
関連論文リスト
- SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling [51.830134409330704]
時系列生成(TSG、Time-Series Generation)は、シミュレーション、データ拡張、および反事実分析に広く応用された、顕著な研究分野である。
我々は、テキストが意味的な洞察、ドメイン情報、インスタンス固有の時間パターンを提供し、TSGをガイドし改善することができると論じている。
BRIDGEはテキスト制御型TSGフレームワークで,テキスト記述とセマンティックプロトタイプを統合し,ドメインレベルのガイダンスをサポートする。
論文 参考訳(メタデータ) (2025-03-04T09:40:00Z) - RAGulator: Lightweight Out-of-Context Detectors for Grounded Text Generation [3.2234520582876467]
我々は,検索したテキスト文書から意味的にアウト・オブ・コンテクストであるLLM生成テキストを識別するために,軽量なモデルを訓練する。
DeBERTaはこのパイプラインの下で最高のパフォーマンスモデルであるだけでなく、高速で、追加のテキスト前処理や機能エンジニアリングを必要としないことも分かりました。
論文 参考訳(メタデータ) (2024-11-06T13:51:42Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction [36.915250638481986]
リアルタイムのコメンタリーテキストに基づいたコンペの要約表を生成するためのベンチマークデータセットであるLiveSumを紹介する。
我々は,このタスクにおける最先端の大規模言語モデルの性能を,微調整とゼロショットの両方で評価する。
さらに、パフォーマンスを改善するために、$T3$(Text-Tuple-Table)と呼ばれる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:31:28Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。