論文の概要: ML Based Lineage in Databases
- arxiv url: http://arxiv.org/abs/2109.06339v1
- Date: Mon, 13 Sep 2021 21:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:26:19.546032
- Title: ML Based Lineage in Databases
- Title(参考訳): データベースにおけるMLベースの線形化
- Authors: Michael Leybovich, Oded Shmueli
- Abstract要約: 本稿では,機械学習(ML)と自然言語処理(NLP)技術を用いて,系統追跡の近似手法を提案する。
我々は,行の追跡とクエリを列レベルで保持する代替かつ改良された行追跡機構を考案した。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we track the lineage of tuples throughout their database
lifetime. That is, we consider a scenario in which tuples (records) that are
produced by a query may affect other tuple insertions into the DB, as part of a
normal workflow. As time goes on, exact provenance explanations for such tuples
become deeply nested, increasingly consuming space, and resulting in decreased
clarity and readability. We present a novel approach for approximating lineage
tracking, using a Machine Learning (ML) and Natural Language Processing (NLP)
technique; namely, word embedding. The basic idea is summarizing (and
approximating) the lineage of each tuple via a small set of constant-size
vectors (the number of vectors per-tuple is a hyperparameter). Therefore, our
solution does not suffer from space complexity blow-up over time, and it
"naturally ranks" explanations to the existence of a tuple. We devise an
alternative and improved lineage tracking mechanism, that of keeping track of
and querying lineage at the column level; thereby, we manage to better
distinguish between the provenance features and the textual characteristics of
a tuple. We integrate our lineage computations into the PostgreSQL system via
an extension (ProvSQL) and experimentally exhibit useful results in terms of
accuracy against exact, semiring-based, justifications. In the experiments, we
focus on tuples with multiple generations of tuples in their lifelong lineage
and analyze them in terms of direct and distant lineage. The experiments
suggest a high usefulness potential for the proposed approximate lineage
methods and the further suggested enhancements. This especially holds for the
column-based vectors method which exhibits high precision and high per-level
recall.
- Abstract(参考訳): この研究では、データベースの寿命を通してタプルの系統を追跡します。
すなわち、クエリによって生成されたタプル(レコード)が、通常のワークフローの一部として、DBへの他のタプル挿入に影響を与える可能性があるシナリオを考える。
時間が経つにつれて、そのようなタプルの正確な証明説明は深くネストされ、空間を消費し、明確さと可読性が低下する。
本稿では,機械学習(ml)と自然言語処理(nlp)技術を用いて,系統追跡を近似する新しい手法,すなわち単語埋め込みを提案する。
基本的な考え方は、各タプルの系統を小さな定数サイズのベクトルの集合(タプル当たりのベクトル数はハイパーパラメータ)で要約(および近似)することである。
したがって、我々の解は時間とともに空間複雑性の爆発に悩まされず、タプルの存在を「自然にランク付け」する。
そこで我々は,行の列レベルでの行の追跡と問合せを行うための代替的,改良された系統追跡機構を考案し,その特徴とタプルのテキスト的特徴をよりよく区別することに成功した。
本稿では,拡張(ProvSQL)を通じてPostgreSQLシステムに直列計算を統合し,精度,半順序に基づく正当性に対して有用な結果を示す。
実験では, 複数世代にわたるタプルを生涯にわたって持つタプルに着目し, 直接的および遠方的系統で解析した。
実験により,提案手法の有効性が示唆され,さらに改良が示唆された。
これは、高い精度と高いレベル毎のリコールを示すカラムベースベクトル法に特に当てはまる。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Selecting Walk Schemes for Database Embedding [6.7609045625714925]
関係データベースのコンポーネントの埋め込みについて検討する。
我々は、動的データベース用に設計された最近のFoRWaRDアルゴリズムに焦点を当てる。
いくつかの情報的ウォークスキームに焦点をあてることで,品質を維持しつつ,埋め込みをはるかに高速に行うことができることを示す。
論文 参考訳(メタデータ) (2024-01-20T11:39:32Z) - DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文 参考訳(メタデータ) (2022-12-15T02:40:57Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - Efficient and Accurate In-Database Machine Learning with SQL Code
Generation in Python [0.0]
Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。
提案手法は,1つのインメモリデータセットの2~3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2~3%低かった。
論文 参考訳(メタデータ) (2021-04-07T16:23:19Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Deep Hough Transform for Semantic Line Detection [70.28969017874587]
自然の場面で意味のある線構造、つまり意味的な線を検知する基本的なタスクに焦点をあてる。
従来の手法は線の性質を無視し、準最適性能をもたらす。
行検出のためのワンショットエンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-10T13:08:42Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。