論文の概要: Model Joins: Enabling Analytics Over Joins of Absent Big Tables
- arxiv url: http://arxiv.org/abs/2206.10434v1
- Date: Tue, 21 Jun 2022 14:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 23:04:36.765738
- Title: Model Joins: Enabling Analytics Over Joins of Absent Big Tables
- Title(参考訳): Model Joins: 巨大なテーブルの会員に関するアナリティクスの強化
- Authors: Ali Mohammadi Shanghooshabad, Peter Triantafillou
- Abstract要約: この作業では、これらの課題に対処するフレームワーク、Model Joinが紹介されている。
フレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
- 参考スコア(独自算出の注目度): 9.797488793708624
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work is motivated by two key facts. First, it is highly desirable to be
able to learn and perform knowledge discovery and analytics (LKD) tasks without
the need to access raw-data tables. This may be due to organizations finding it
increasingly frustrating and costly to manage and maintain ever-growing tables,
or for privacy reasons. Hence, compact models can be developed from the raw
data and used instead of the tables. Second, oftentimes, LKD tasks are to be
performed on a (potentially very large) table which is itself the result of
joining separate (potentially very large) relational tables. But how can one do
this, when the individual to-be-joined tables are absent? Here, we pose the
following fundamental questions: Q1: How can one "join models" of
(absent/deleted) tables or "join models with other tables" in a way that
enables LKD as if it were performed on the join of the actual raw tables? Q2:
What are appropriate models to use per table? Q3: As the model join would be an
approximation of the actual data join, how can one evaluate the quality of the
model join result? This work puts forth a framework, Model Join, addressing
these challenges. The framework integrates and joins the per-table models of
the absent tables and generates a uniform and independent sample that is a
high-quality approximation of a uniform and independent sample of the actual
raw-data join. The approximation stems from the models, but not from the Model
Join framework. The sample obtained by the Model Join can be used to perform
LKD downstream tasks, such as approximate query processing, classification,
clustering, regression, association rule mining, visualization, and so on. To
our knowledge, this is the first work with this agenda and solutions. Detailed
experiments with TPC-DS data and synthetic data showcase Model Join's
usefulness.
- Abstract(参考訳): この作品は2つの重要な事実によって動機付けられている。
まず、生のデータテーブルにアクセスすることなく、知識発見・分析(lkd)タスクを学習し実行できることが望ましい。
これは、成長を続けるテーブルの管理とメンテナンス、あるいはプライバシー上の理由から、ますますイライラし、コストがかかる組織が原因かもしれない。
したがって、コンパクトなモデルは生のデータから開発でき、テーブルの代わりに使うことができる。
第二に、しばしばLKDタスクは(潜在的に非常に大きな)テーブル上で実行され、それはそれ自体が別々の(潜在的に非常に大きな)リレーショナルテーブルと結合した結果である。
しかし、個人が参加するテーブルが存在しない場合、どうやってこれを行うことができるのか?
Q1: (absent/deleted) テーブルの 1 つの "join Model" や "join Model with other table" は、実際の生テーブルのジョインで実行されたように、LKD を可能にする方法として、どのようにできるのか?
Q2: テーブルごとの適切なモデルは何ですか?
Q3: モデル結合が実際のデータ結合の近似となると、モデル結合の結果の品質をどのように評価できるでしょうか?
この作業は、これらの課題に対処するフレームワーク、Model Joinを生み出します。
このフレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合し、実際の生データの結合の均一かつ独立なサンプルの高品質な近似である均一で独立なサンプルを生成する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
Model Joinによって得られたサンプルは、近似クエリ処理、分類、クラスタリング、回帰、関連ルールマイニング、可視化など、LKD下流タスクの実行に使用することができる。
私たちの知る限りでは、このアジェンダとソリューションに関する最初の作業です。
tpc-dsデータおよび合成データを用いた詳細な実験はモデルジョインの有用性を示す。
関連論文リスト
- TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval [52.592071689901196]
本稿では,テーブル検索において,任意のクエリやデータベースに対して有用な結合関係を明らかにする手法を提案する。
提案手法は,F1スコアの最大9.3%,エンドツーエンドQAの最大5.4%の精度で,テーブル検索の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-15T15:55:01Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文 参考訳(メタデータ) (2023-10-05T00:58:45Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。