論文の概要: SQLFlow: A Bridge between SQL and Machine Learning
- arxiv url: http://arxiv.org/abs/2001.06846v1
- Date: Sun, 19 Jan 2020 15:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:44:59.843079
- Title: SQLFlow: A Bridge between SQL and Machine Learning
- Title(参考訳): SQLFlow:SQLと機械学習の橋渡し
- Authors: Yi Wang, Yang Yang, Weiguo Zhu, Yi Wu, Xu Yan, Yongfeng Liu, Yu Wang,
Liang Xie, Ziyao Gao, Wenjing Zhu, Xiang Chen, Wei Yan, Mingjie Tang, Yuan
Tang
- Abstract要約: 典型的なビジネスインテリジェンスシステムには、多くのオンラインマイクロサービスとオフラインジョブが含まれる。
このような効率的なインスクフローを開発するためのqlFlowについて説明する。
この拡張は,教師付き学習と教師なし学習,深層ネットワークとツリーモデル,学習と予測に加えて視覚モデルの説明,データ処理と特徴抽出をMLに加えることで実現されている。
- 参考スコア(独自算出の注目度): 21.589684708148592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial AI systems are mostly end-to-end machine learning (ML) workflows.
A typical recommendation or business intelligence system includes many online
micro-services and offline jobs. We describe SQLFlow for developing such
workflows efficiently in SQL. SQL enables developers to write short programs
focusing on the purpose (what) and ignoring the procedure (how). Previous
database systems extended their SQL dialect to support ML. SQLFlow
(https://sqlflow.org/sqlflow ) takes another strategy to work as a bridge over
various database systems, including MySQL, Apache Hive, and Alibaba MaxCompute,
and ML engines like TensorFlow, XGBoost, and scikit-learn. We extended SQL
syntax carefully to make the extension working with various SQL dialects. We
implement the extension by inventing a collaborative parsing algorithm. SQLFlow
is efficient and expressive to a wide variety of ML techniques -- supervised
and unsupervised learning; deep networks and tree models; visual model
explanation in addition to training and prediction; data processing and feature
extraction in addition to ML. SQLFlow compiles a SQL program into a
Kubernetes-native workflow for fault-tolerable execution and on-cloud
deployment. Current industrial users include Ant Financial, DiDi, and Alibaba
Group.
- Abstract(参考訳): 産業用AIシステムは、主にエンドツーエンドの機械学習(ML)ワークフローである。
典型的なレコメンデーションまたはビジネスインテリジェンスシステムには、多くのオンラインマイクロサービスとオフラインジョブが含まれる。
このようなワークフローをSQLで効率的に開発するためのSQLFlowについて説明する。
SQLを使うことで、開発者は目的(何)と手順(方法)を無視した短いプログラムを書くことができる。
以前のデータベースシステムは、MLをサポートするためにSQL方言を拡張した。
SQLFlow(https://sqlflow.org/sqlflow )は、MySQL、Apache Hive、Alibaba MaxCompute、TensorFlow、XGBoost、Scikit-learnといったMLエンジンなど、さまざまなデータベースシステムのブリッジとして機能する別の戦略を採用している。
SQLの構文を慎重に拡張して、さまざまなSQL方言で拡張を動作させました。
我々は,協調構文解析アルゴリズムを考案して拡張を実装した。
SQLFlowは、教師付き、教師なしの学習、深いネットワークとツリーモデル、トレーニングと予測に加えて視覚モデルの説明、MLに加えてデータ処理と機能抽出など、さまざまなMLテクニックに対して効率的で表現力がある。
SQLFlowは、フォールトトレラントな実行とオンプレミスデプロイメントのために、SQLプログラムをKubernetesネイティブワークフローにコンパイルする。
現在の産業ユーザはAnt Financial、DiDi、Alibaba Groupなどだ。
関連論文リスト
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。
本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文 参考訳(メタデータ) (2024-08-22T20:50:48Z) - SQLfuse: Enhancing Text-to-SQL Performance through Comprehensive LLM Synergy [24.919119901664843]
本稿では,オープンソースのLarge Language Models(LLM)を,クエリの精度とユーザビリティを高めるための一連のツールに統合する,堅牢なシステムを提案する。
Ant GroupによるSpider Leaderboardとデプロイメントのリードパフォーマンスによって実証された。
論文 参考訳(メタデータ) (2024-07-19T06:01:57Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - ACT-SQL: In-Context Learning for Text-to-SQL with
Automatically-Generated Chain-of-Thought [24.1320473171017]
大規模言語モデル(LLM)は、様々なドメインやタスクにおいて強力な能力を持つことが証明されている。
我々は、スキーマリンクに類似した方法で、チェーン・オブ・シンクレット(CoT)プロンプトを設計する。
我々は、テキストからテキストへのマルチターンタスクにコンテキスト内学習手法を拡張した。
論文 参考訳(メタデータ) (2023-10-26T12:16:25Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Forecasting SQL Query Cost at Twitter [2.124552987084511]
Serviceは、履歴クエリ要求ログからモデルをトレーニングするために、機械学習技術を使用している。
モデルはCPU使用率予測の97.9%、メモリ使用率予測の97%の精度を達成することができる。
論文 参考訳(メタデータ) (2022-04-12T05:08:30Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。