論文の概要: JoinBoost: Grow Trees Over Normalized Data Using Only SQL
- arxiv url: http://arxiv.org/abs/2307.00422v1
- Date: Sat, 1 Jul 2023 20:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:16:45.249818
- Title: JoinBoost: Grow Trees Over Normalized Data Using Only SQL
- Title(参考訳): joinboost: sqlだけで正規化されたデータ上に木を育てる
- Authors: Zezhou Huang, Rathijit Sen, Jiaxiang Liu, Eugene Wu
- Abstract要約: JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリである。
それは、特殊なMLライブラリとパフォーマンスの競争力を提供し、基礎となる機能とスケールする。
実験の結果、JoinBoostはLightGBMよりも3倍高速で、最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。
- 参考スコア(独自算出の注目度): 10.919507523061888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although dominant for tabular data, ML libraries that train tree models over
normalized databases (e.g., LightGBM, XGBoost) require the data to be
denormalized as a single table, materialized, and exported. This process is not
scalable, slow, and poses security risks. In-DB ML aims to train models within
DBMSes to avoid data movement and provide data governance. Rather than modify a
DBMS to support In-DB ML, is it possible to offer competitive tree training
performance to specialized ML libraries...with only SQL?
We present JoinBoost, a Python library that rewrites tree training algorithms
over normalized databases into pure SQL. It is portable to any DBMS, offers
performance competitive with specialized ML libraries, and scales with the
underlying DBMS capabilities. JoinBoost extends prior work from both
algorithmic and systems perspectives. Algorithmically, we support factorized
gradient boosting, by updating the $Y$ variable to the residual in the
non-materialized join result. Although this view update problem is generally
ambiguous, we identify addition-to-multiplication preserving, the key property
of variance semi-ring to support rmse, the most widely used criterion.
System-wise, we identify residual updates as a performance bottleneck. Such
overhead can be natively minimized on columnar DBMSes by creating a new column
of residual values and adding it as a projection. We validate this with two
implementations on DuckDB, with no or minimal modifications to its internals
for portability. Our experiment shows that JoinBoost is 3x (1.1x) faster for
random forests (gradient boosting) compared to LightGBM, and over an order
magnitude faster than state-of-the-art In-DB ML systems. Further, JoinBoost
scales well beyond LightGBM in terms of the # features, DB size (TPC-DS
SF=1000), and join graph complexity (galaxy schemas).
- Abstract(参考訳): 表形式のデータでは支配的であるが、正規化されたデータベース(LightGBM、XGBoostなど)上でツリーモデルをトレーニングするMLライブラリは、データを単一のテーブルとして非正規化し、実体化し、エクスポートする必要がある。
このプロセスはスケーラブルではなく、遅く、セキュリティリスクを引き起こす。
In-DB MLはDBMS内のモデルをトレーニングし、データの動きを避け、データガバナンスを提供する。
In-DB MLをサポートするためにDBMSを変更するのではなく、特殊なMLライブラリに競合するツリートレーニングパフォーマンスを提供することができますか?
JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリです。
任意のDBMSに移植可能で、特殊なMLライブラリと競合するパフォーマンスを提供し、基盤となるDBMS機能とスケールする。
JoinBoostは、アルゴリズムとシステムの両方の観点から、以前の作業を拡張している。
アルゴリズムでは、非物質化結合結果の残余に対して$Y$変数を更新することにより、分解勾配向上をサポートする。
このビュー更新問題は一般に曖昧であるが、最も広く使われている基準であるrmseをサポートするための分散セミリングの重要な性質である加算対多重保存を同定する。
システム面では,残差更新をパフォーマンスボトルネックとして認識する。
このようなオーバーヘッドは、新しい残値列を作成して投影として追加することで、カラム型dbms上でネイティブに最小化することができる。
これをduckdbの2つの実装で検証し、移植性のために内部を変更または最小限変更しました。
実験の結果,JoinBoostはLightGBMに比べて3倍 (1.1x) 高速であり,最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。
さらにjoinboostは、#機能、dbサイズ(tpc-ds sf=1000)、およびジョイングラフ複雑性(galaxyスキーマ)の観点から、lightgbmをはるかに越えています。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - LR-SQL: A Supervised Fine-Tuning Method for Text2SQL Tasks under Low-Resource Scenarios [1.4387218083918762]
大規模言語モデルは、教師付き微調整によってText2に革命をもたらす。
しかし、データベースの複雑さがコンテキスト長の増大につながるため、重要な制限は見過ごされてしまう。
本稿では,既存の微調整法と比較して,全GPUメモリ使用量を40%削減するLR-Thoughtを提案する。
論文 参考訳(メタデータ) (2024-10-15T10:02:55Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - RDBench: ML Benchmark for Relational Databases [38.96429447951739]
我々は、リレーショナルデータベース(RDB)に関する再現性のある機械学習(ML)研究を促進するための標準ベンチマークRDBenchを紹介する。
RDBenchは、さまざまなスケール、ドメイン、グラフ、リレーショナル構造からなる、さまざまなRDBデータセットを提供する。
RDBenchは、RDB予測タスクの下で、XBoostGからグラフニューラルネットワークまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2023-10-25T17:59:34Z) - Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge
Base and Database [86.03294330305097]
知識ベース(KB)とデータベース(DB)の両方で質問応答(QA)を統一した意味的要素を提案する。
フレームワークに不可欠な要素としてプリミティブ(KBのリレーションとエンティティ、テーブル名、列名、DBのセル値)を導入します。
生成元を利用して、異なる操作でトップランクプリミティブを変更・構成することで、最終的な論理形式を予測する。
論文 参考訳(メタデータ) (2022-11-09T19:33:27Z) - Efficient and Accurate In-Database Machine Learning with SQL Code
Generation in Python [0.0]
Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。
提案手法は,1つのインメモリデータセットの2~3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2~3%低かった。
論文 参考訳(メタデータ) (2021-04-07T16:23:19Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - Exploiting Database Management Systems and Treewidth for Counting [22.315022989618594]
正規カウント問題は#SATであり、ブール公式の割り当てを数えるように求めている。
最近の研究によると、#SATのベンチマークインスタンスは、適度に小さなツリー幅を持つことが多い。
本稿では,最先端データベース管理システムに基づく質問数解決のための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-13T12:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。