論文の概要: Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks
- arxiv url: http://arxiv.org/abs/2508.07179v1
- Date: Sun, 10 Aug 2025 05:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.739611
- Title: Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks
- Title(参考訳): スケールでのスキーマ線形化抽出:多言語パイプライン、複合評価、言語モデルベンチマーク
- Authors: Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu,
- Abstract要約: セマンティックドリフト(Semantic drift)は、データとガバナンスを妥協し、テキストからRAGまでのサービスの有用性を損なう。
本稿では,多言語エンタープライズパイプラインスクリプトから細粒度スキーマを自動抽出するフレームワークを提案する。
結果:単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でGPTシリーズに匹敵するパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 3.3705400036304205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise data pipelines, characterized by complex transformations across multiple programming languages, often cause a semantic disconnect between original metadata and downstream data. This "semantic drift" compromises data reproducibility and governance, and impairs the utility of services like retrieval-augmented generation (RAG) and text-to-SQL systems. To address this, a novel framework is proposed for the automated extraction of fine-grained schema lineage from multilingual enterprise pipeline scripts. This method identifies four key components: source schemas, source tables, transformation logic, and aggregation operations, creating a standardized representation of data transformations. For the rigorous evaluation of lineage quality, this paper introduces the Schema Lineage Composite Evaluation (SLiCE), a metric that assesses both structural correctness and semantic fidelity. A new benchmark is also presented, comprising 1,700 manually annotated lineages from real-world industrial scripts. Experiments were conducted with 12 language models, from 1.3B to 32B small language models (SLMs) to large language models (LLMs) like GPT-4o and GPT-4.1. The results demonstrate that the performance of schema lineage extraction scales with model size and the sophistication of prompting techniques. Specially, a 32B open-source model, using a single reasoning trace, can achieve performance comparable to the GPT series under standard prompting. This finding suggests a scalable and economical approach for deploying schema-aware agents in practical applications.
- Abstract(参考訳): エンタープライズデータパイプラインは、複数のプログラミング言語にまたがる複雑な変換によって特徴づけられるが、しばしば元のメタデータと下流データのセマンティックな切り離しを引き起こす。
この“セマンティックドリフト”は、データの再現性とガバナンスを損なうとともに、検索強化世代(RAG)やテキストからSQLシステムといったサービスの有用性を損なう。
これを解決するために、多言語エンタープライズパイプラインスクリプトからきめ細かなスキーマ系統を自動的に抽出する新しいフレームワークを提案する。
この方法は、ソーススキーマ、ソーステーブル、変換ロジック、集約操作の4つの重要なコンポーネントを特定し、データ変換の標準化された表現を作成する。
本稿では,系統品質の厳密な評価を行うために,構造的正しさと意味的忠実度の両方を評価する尺度であるSLiCE(Schema Lineage Composite Evaluation)を導入する。
新しいベンチマークも提示され、実世界の産業スクリプトから1,700の注釈付き系統が含まれている。
1.3Bから32Bの小さな言語モデル(SLM)から、GPT-4oやGPT-4.1のような大きな言語モデル(LLM)まで、12の言語モデルで実験が行われた。
以上の結果から, モデルサイズとプロンプト手法の高度化により, スキーマ系統抽出性能がスケールすることを示した。
特に、単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でのGPTシリーズに匹敵するパフォーマンスを達成することができる。
この発見は、実用的なアプリケーションにスキーマ対応エージェントをデプロイするためのスケーラブルで経済的アプローチを示唆している。
関連論文リスト
- Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats [0.0]
本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。
実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。
これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
論文 参考訳(メタデータ) (2025-03-04T14:14:28Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Generation of Asset Administration Shell with Large Language Model Agents: Toward Semantic Interoperability in Digital Twins in the Context of Industry 4.0 [0.6749750044497732]
本研究は,デジタル双生児におけるセマンティック・インターオペラビリティを実現するための新しいアプローチを提案する。
業界 4.0 におけるデジタル双対モデルとしてアセット管理シェル (AAS) の作成を支援する。
論文 参考訳(メタデータ) (2024-03-25T21:37:30Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。