論文の概要: FeatAug: Automatic Feature Augmentation From One-to-Many Relationship Tables
- arxiv url: http://arxiv.org/abs/2403.06367v1
- Date: Mon, 11 Mar 2024 01:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:11:34.037682
- Title: FeatAug: Automatic Feature Augmentation From One-to-Many Relationship Tables
- Title(参考訳): FeatAug:一対多の関係表から自動的に機能拡張
- Authors: Danrui Qi, Weiling Zheng, Jiannan Wang,
- Abstract要約: 1対多の関係テーブルの機能強化は、MLモデル開発において重要な問題であるが、難しい問題である。
本稿では,1対多の関係テーブルから述語クエリを自動的に抽出する機能拡張フレームワークFEATAUGを提案する。
FeatAugがFeattoolsよりも効果的な特徴を抽出できることを実世界の4つのデータセットで実証した。
- 参考スコア(独自算出の注目度): 4.058220332950672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature augmentation from one-to-many relationship tables is a critical but challenging problem in ML model development. To augment good features, data scientists need to come up with SQL queries manually, which is time-consuming. Featuretools [1] is a widely used tool by the data science community to automatically augment the training data by extracting new features from relevant tables. It represents each feature as a group-by aggregation SQL query on relevant tables and can automatically generate these SQL queries. However, it does not include predicates in these queries, which significantly limits its application in many real-world scenarios. To overcome this limitation, we propose FEATAUG, a new feature augmentation framework that automatically extracts predicate-aware SQL queries from one-to-many relationship tables. This extension is not trivial because considering predicates will exponentially increase the number of candidate queries. As a result, the original Featuretools framework, which materializes all candidate queries, will not work and needs to be redesigned. We formally define the problem and model it as a hyperparameter optimization problem. We discuss how the Bayesian Optimization can be applied here and propose a novel warm-up strategy to optimize it. To make our algorithm more practical, we also study how to identify promising attribute combinations for predicates. We show that how the beam search idea can partially solve the problem and propose several techniques to further optimize it. Our experiments on four real-world datasets demonstrate that FeatAug extracts more effective features compared to Featuretools and other baselines. The code is open-sourced at https://github.com/sfu-db/FeatAug
- Abstract(参考訳): 1対多の関係テーブルの機能強化は、MLモデル開発において重要な問題であるが、難しい問題である。
優れた機能を強化するためには、データサイエンティストが手動でSQLクエリを作成する必要がある。
Featuretools [1]はデータサイエンスコミュニティで広く使われているツールで、関連するテーブルから新機能を抽出してトレーニングデータを自動的に強化する。
各機能は、関連するテーブル上のSQLクエリをグループバイアグリゲーションとして表現し、これらのSQLクエリを自動的に生成できる。
しかし、これらのクエリには述語を含まないため、多くの実世界のシナリオにおいてアプリケーションを大幅に制限する。
この制限を克服するため,一対多の関係テーブルから述語対応SQLクエリを自動的に抽出する機能拡張フレームワークであるFEATAUGを提案する。
述語を考えると、候補クエリの数が指数関数的に増加するため、この拡張は簡単ではない。
結果として、全ての候補クエリを具体化するオリジナルのFeaturetoolsフレームワークは機能せず、再設計される必要がある。
我々はこの問題を公式に定義し、ハイパーパラメータ最適化問題としてモデル化する。
本稿では,ベイズ最適化の適用方法について論じるとともに,これを最適化するための新しいウォームアップ戦略を提案する。
また,提案アルゴリズムをより実用的なものにするために,述語に対する有望な属性の組み合わせを特定する方法についても検討する。
ビームサーチの考え方を部分的に解き、さらに最適化するためのいくつかの手法を提案する。
FeatAugはFeattoolsや他のベースラインと比較して,より効果的な特徴を抽出する。
コードはhttps://github.com/sfu-db/FeatAugで公開されている。
関連論文リスト
- UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
我々は,関連するデータとコンテキストを検索し,効率的なスキーマを選択し,正確で効率的なクエリを合成する新しいパイプラインを提案する。
提案手法は,BIRDデータセットの領域横断における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - BitE : Accelerating Learned Query Optimization in a Mixed-Workload
Environment [0.36700088931938835]
BitEは、データベース統計とメタデータを使用して、学習したクエリをチューニングしてパフォーマンスを向上させる、新しいアンサンブル学習モデルである。
我々のモデルは従来の手法に比べて19.6%改善されたクエリと15.8%改善されたクエリを実現している。
論文 参考訳(メタデータ) (2023-06-01T16:05:33Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Pay More Attention to History: A Context Modeling Strategy for
Conversational Text-to-SQL [8.038535788630542]
会話型テキスト・ツー・ドメインの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化することである。
本稿では,各ターンの追加による意味変化の明示的モデル化とコンテキスト全体の要約により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:41:04Z) - "What makes my queries slow?": Subgroup Discovery for SQL Workload
Analysis [1.3124513975412255]
サブグループディスカバリーに根ざした独自のアプローチを導入する。
この汎用データマイニングフレームワークのインスタンス化と開発方法を示す。
インタラクティブな知識発見のための可視化ツールも提供しています。
論文 参考訳(メタデータ) (2021-08-09T09:44:13Z) - TableQnA: Answering List Intent Queries With Web Tables [12.941073798838167]
我々は、HTMLテーブルでクエリの2つのクラスに答えることに集中する。
既存のアプローチでは、候補者から回答を選択するために機械学習モデルを訓練している。
構造認識マッチングを計算し、機械学習モデルを訓練する新機能を開発した。
論文 参考訳(メタデータ) (2020-01-10T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。