Fugu-MT 論文翻訳(概要): JoinBoost: Grow Trees Over Normalized Data Using Only SQL

論文の概要: JoinBoost: Grow Trees Over Normalized Data Using Only SQL

arxiv url: http://arxiv.org/abs/2307.00422v1
Date: Sat, 1 Jul 2023 20:18:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 16:16:45.249818
Title: JoinBoost: Grow Trees Over Normalized Data Using Only SQL
Title（参考訳）: joinboost: sqlだけで正規化されたデータ上に木を育てる
Authors: Zezhou Huang, Rathijit Sen, Jiaxiang Liu, Eugene Wu
Abstract要約: JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリである。それは、特殊なMLライブラリとパフォーマンスの競争力を提供し、基礎となる機能とスケールする。実験の結果、JoinBoostはLightGBMよりも3倍高速で、最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。
参考スコア（独自算出の注目度）: 10.919507523061888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although dominant for tabular data, ML libraries that train tree models over normalized databases (e.g., LightGBM, XGBoost) require the data to be denormalized as a single table, materialized, and exported. This process is not scalable, slow, and poses security risks. In-DB ML aims to train models within DBMSes to avoid data movement and provide data governance. Rather than modify a DBMS to support In-DB ML, is it possible to offer competitive tree training performance to specialized ML libraries...with only SQL? We present JoinBoost, a Python library that rewrites tree training algorithms over normalized databases into pure SQL. It is portable to any DBMS, offers performance competitive with specialized ML libraries, and scales with the underlying DBMS capabilities. JoinBoost extends prior work from both algorithmic and systems perspectives. Algorithmically, we support factorized gradient boosting, by updating the $Y$ variable to the residual in the non-materialized join result. Although this view update problem is generally ambiguous, we identify addition-to-multiplication preserving, the key property of variance semi-ring to support rmse, the most widely used criterion. System-wise, we identify residual updates as a performance bottleneck. Such overhead can be natively minimized on columnar DBMSes by creating a new column of residual values and adding it as a projection. We validate this with two implementations on DuckDB, with no or minimal modifications to its internals for portability. Our experiment shows that JoinBoost is 3x (1.1x) faster for random forests (gradient boosting) compared to LightGBM, and over an order magnitude faster than state-of-the-art In-DB ML systems. Further, JoinBoost scales well beyond LightGBM in terms of the # features, DB size (TPC-DS SF=1000), and join graph complexity (galaxy schemas).
Abstract（参考訳）: 表形式のデータでは支配的であるが、正規化されたデータベース(LightGBM、XGBoostなど)上でツリーモデルをトレーニングするMLライブラリは、データを単一のテーブルとして非正規化し、実体化し、エクスポートする必要がある。このプロセスはスケーラブルではなく、遅く、セキュリティリスクを引き起こす。 In-DB MLはDBMS内のモデルをトレーニングし、データの動きを避け、データガバナンスを提供する。 In-DB MLをサポートするためにDBMSを変更するのではなく、特殊なMLライブラリに競合するツリートレーニングパフォーマンスを提供することができますか? JoinBoostは、正規化されたデータベース上のツリートレーニングアルゴリズムを純粋なSQLに書き換えるPythonライブラリです。任意のDBMSに移植可能で、特殊なMLライブラリと競合するパフォーマンスを提供し、基盤となるDBMS機能とスケールする。 JoinBoostは、アルゴリズムとシステムの両方の観点から、以前の作業を拡張している。アルゴリズムでは、非物質化結合結果の残余に対して$Y$変数を更新することにより、分解勾配向上をサポートする。このビュー更新問題は一般に曖昧であるが、最も広く使われている基準であるrmseをサポートするための分散セミリングの重要な性質である加算対多重保存を同定する。システム面では,残差更新をパフォーマンスボトルネックとして認識する。このようなオーバーヘッドは、新しい残値列を作成して投影として追加することで、カラム型dbms上でネイティブに最小化することができる。これをduckdbの2つの実装で検証し、移植性のために内部を変更または最小限変更しました。実験の結果,JoinBoostはLightGBMに比べて3倍 (1.1x) 高速であり,最先端のIn-DB MLシステムよりも桁違いに高速であることがわかった。さらにjoinboostは、#機能、dbサイズ(tpc-ds sf=1000)、およびジョイングラフ複雑性(galaxyスキーマ)の観点から、lightgbmをはるかに越えています。

関連論文リスト

Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward [15.448159172903138]
テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。本稿では,GMNScore結果報酬モデルを用いたテキスト・ツー・RLファインチューニングフレームワークであるGraph-Reward-Rewardを提案する。
論文参考訳（メタデータ） (2025-05-18T11:53:01Z)
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [14.677024710675838]
LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。 SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。 LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳（メタデータ） (2025-03-24T11:53:06Z)
Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
LR-SQL: A Supervised Fine-Tuning Method for Text2SQL Tasks under Low-Resource Scenarios [1.4387218083918762]
大規模言語モデルは、教師付き微調整によってText2に革命をもたらす。しかし、データベースの複雑さがコンテキスト長の増大につながるため、重要な制限は見過ごされてしまう。本稿では,既存の微調整法と比較して,全GPUメモリ使用量を40%削減するLR-Thoughtを提案する。
論文参考訳（メタデータ） (2024-10-15T10:02:55Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文参考訳（メタデータ） (2024-02-10T15:23:45Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
RDBench: ML Benchmark for Relational Databases [38.96429447951739]
我々は、リレーショナルデータベース(RDB)に関する再現性のある機械学習(ML)研究を促進するための標準ベンチマークRDBenchを紹介する。 RDBenchは、さまざまなスケール、ドメイン、グラフ、リレーショナル構造からなる、さまざまなRDBデータセットを提供する。 RDBenchは、RDB予測タスクの下で、XBoostGからグラフニューラルネットワークまで、さまざまなドメインからのMLメソッド間の有意義な比較を可能にする。
論文参考訳（メタデータ） (2023-10-25T17:59:34Z)
Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge Base and Database [86.03294330305097]
知識ベース(KB)とデータベース(DB)の両方で質問応答(QA)を統一した意味的要素を提案する。フレームワークに不可欠な要素としてプリミティブ(KBのリレーションとエンティティ、テーブル名、列名、DBのセル値)を導入します。生成元を利用して、異なる操作でトップランクプリミティブを変更・構成することで、最終的な論理形式を予測する。
論文参考訳（メタデータ） (2022-11-09T19:33:27Z)
Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python [0.0]
Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。提案手法は,1つのインメモリデータセットの2～3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2～3%低かった。
論文参考訳（メタデータ） (2021-04-07T16:23:19Z)
Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。 BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文参考訳（メタデータ） (2020-12-23T12:33:52Z)
ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文参考訳（メタデータ） (2020-08-06T07:43:19Z)
Exploiting Database Management Systems and Treewidth for Counting [22.315022989618594]
正規カウント問題は#SATであり、ブール公式の割り当てを数えるように求めている。最近の研究によると、#SATのベンチマークインスタンスは、適度に小さなツリー幅を持つことが多い。本稿では,最先端データベース管理システムに基づく質問数解決のための一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-01-13T12:45:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。