論文の概要: RAG-Driven Data Quality Governance for Enterprise ERP Systems
- arxiv url: http://arxiv.org/abs/2511.16700v1
- Date: Tue, 18 Nov 2025 12:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.762397
- Title: RAG-Driven Data Quality Governance for Enterprise ERP Systems
- Title(参考訳): エンタープライズERPシステムにおけるRAGによるデータ品質管理
- Authors: Sedat Bin Vedat, Enes Kutay Yarkan, Meftun Akarsu, Recep Kaan Karaman, Arda Sar, Çağrı Çelikbilek, Savaş Saygılı,
- Abstract要約: LLMによるクエリ生成と自動データクリーニングを組み合わせたエンドツーエンドパイプラインを提案する。
システムは6ヶ月で24万人の従業員の記録を管理するプロダクションシステムにデプロイされる。
このモジュラーアーキテクチャは、AIネイティブなエンタープライズデータガバナンスのための再現可能なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise ERP systems managing hundreds of thousands of employee records face critical data quality challenges when human resources departments perform decentralized manual entry across multiple languages. We present an end-to-end pipeline combining automated data cleaning with LLM-driven SQL query generation, deployed on a production system managing 240,000 employee records over six months. The system operates in two integrated stages: a multi-stage cleaning pipeline that performs translation normalization, spelling correction, and entity deduplication during periodic synchronization from Microsoft SQL Server to PostgreSQL; and a retrieval-augmented generation framework powered by GPT-4o that translates natural-language questions in Turkish, Russian, and English into validated SQL queries. The query engine employs LangChain orchestration, FAISS vector similarity search, and few-shot learning with 500+ validated examples. Our evaluation demonstrates 92.5% query validity, 95.1% schema compliance, and 90.7\% semantic accuracy on 2,847 production queries. The system reduces query turnaround time from 2.3 days to under 5 seconds while maintaining 99.2% uptime, with GPT-4o achieving 46% lower latency and 68% cost reduction versus GPT-3.5. This modular architecture provides a reproducible framework for AI-native enterprise data governance, demonstrating real-world viability at enterprise scale with 4.3/5.0 user satisfaction.
- Abstract(参考訳): 数十万の従業員記録を管理するエンタープライズERPシステムは、人事部が複数の言語にまたがる分散手動入力を行う場合、重要なデータ品質上の課題に直面している。
LLM駆動のSQLクエリ生成と自動データクリーニングを組み合わせたエンドツーエンドパイプラインを運用システムにデプロイし,6ヶ月で24万件の従業員記録を管理する。
このシステムは、Microsoft SQL ServerからPostgreSQLへの周期的同期中に翻訳正規化、スペル修正、エンティティ重複を実行するマルチステージクリーニングパイプラインと、トルコ語、ロシア語、英語の自然言語質問を検証されたSQLクエリに変換するGPT-4oをベースとした検索拡張生成フレームワークである。
クエリエンジンには、LangChainオーケストレーション、FAISSベクトル類似検索、500以上の検証済み例による数ショット学習が使用されている。
本評価では,92.5%のクエリ妥当性,95.1%のスキーマコンプライアンス,および2,847のプロダクションクエリに対する90.7%のセマンティック精度を示す。
このシステムはクエリのターンアラウンド時間を2.3日から5秒以下に短縮し、99.2%のアップタイムを維持し、GPT-4oは46%のレイテンシと68%のコスト削減を実現している。
このモジュラーアーキテクチャは、AIネイティブなエンタープライズデータガバナンスのための再現可能なフレームワークを提供する。
関連論文リスト
- SING-SQL: A Synthetic Data Generation Framework for In-Domain Text-to-SQL Translation [2.0799061948689306]
SING-aは、高品質で高カバレッジな合成テキストデータを生成するための、完全に自動化された2段階のフレームワークである。
SING-LMは、合成データに基づいて微調整されたコンパクト言語モデルのファミリーである。
論文 参考訳(メタデータ) (2025-09-30T02:14:49Z) - Agentic LLMs for Question Answering over Tabular Data [6.310433217813068]
Tabular Data (Table QA) に対する質問回答は、現実世界のテーブルの構造、サイズ、データタイプが多様であることから、ユニークな課題を提示している。
本稿では,我々の方法論,実験結果,代替手法について詳述し,テーブルQAの強度と限界について考察する。
論文 参考訳(メタデータ) (2025-09-11T08:12:38Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL [18.915121803834698]
大規模言語モデルとデータベースの知識を体系的に整合させる新しいフレームワークであるDB-Exploreを提案する。
我々のフレームワークは、多様なサンプリング戦略と自動命令生成を通じて、包括的なデータベース理解を可能にする。
論文 参考訳(メタデータ) (2025-03-06T20:46:43Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。