論文の概要: Retrieval-Based Transformer for Table Augmentation
- arxiv url: http://arxiv.org/abs/2306.11843v1
- Date: Tue, 20 Jun 2023 18:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 16:06:45.929610
- Title: Retrieval-Based Transformer for Table Augmentation
- Title(参考訳): テーブル拡張のための検索型変換器
- Authors: Michael Glass, Xueqing Wu, Ankita Rajaram Naik, Gaetano Rossiello,
Alfio Gliozzo
- Abstract要約: 我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
- 参考スコア(独自算出の注目度): 14.460363647772745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data preparation, also called data wrangling, is considered one of the most
expensive and time-consuming steps when performing analytics or building
machine learning models. Preparing data typically involves collecting and
merging data from complex heterogeneous, and often large-scale data sources,
such as data lakes. In this paper, we introduce a novel approach toward
automatic data wrangling in an attempt to alleviate the effort of end-users,
e.g. data analysts, in structuring dynamic views from data lakes in the form of
tabular data. We aim to address table augmentation tasks, including row/column
population and data imputation. Given a corpus of tables, we propose a
retrieval augmented self-trained transformer model. Our self-learning strategy
consists in randomly ablating tables from the corpus and training the
retrieval-based model to reconstruct the original values or headers given the
partial tables as input. We adopt this strategy to first train the dense neural
retrieval model encoding table-parts to vectors, and then the end-to-end model
trained to perform table augmentation tasks. We test on EntiTables, the
standard benchmark for table augmentation, as well as introduce a new benchmark
to advance further research: WebTables. Our model consistently and
substantially outperforms both supervised statistical methods and the current
state-of-the-art transformer-based models.
- Abstract(参考訳): データ準備は、データラングリングとも呼ばれ、分析や機械学習モデルの構築において、最も高価で時間を要するステップの1つである。
データの準備は通常、複雑な異種データや、データレイクのような大規模データソースからのデータを収集してマージする。
本稿では,データレイクからの動的ビューを表型データとして構造化するための,エンドユーザの努力,例えばデータアナリストの努力を緩和する試みとして,自動データラングリングへの新しいアプローチを提案する。
我々は、列/列の人口とデータインプテーションを含むテーブル拡張タスクに対処することを目的としている。
テーブルのコーパスが与えられた場合,検索拡張自己学習トランスフォーマーモデルを提案する。
我々の自己学習戦略は、コーパスからランダムにテーブルを非難し、部分テーブルを入力として与えられた元の値やヘッダを再構築する検索ベースモデルを訓練する。
この戦略を用いて、まずテーブル部分をベクトルに符号化する高密度ニューラルネットワークモデルを訓練し、次にテーブル拡張タスクを実行するために訓練されたエンドツーエンドモデルを訓練する。
私たちは、テーブル拡張の標準ベンチマークであるEntiTablesをテストし、さらに研究を進めるための新しいベンチマーク、WebTablesを導入しました。
提案モデルは, 統計的手法と現在の変圧器に基づくモデルの両方を, 一貫して, 実質的に上回っている。
関連論文リスト
- Making Parametric Anomaly Detection on Tabular Data Non-Parametric Again [0.0]
研究は、このギャップに対処するために、検索強化モデルを導入し、分類や回帰といった教師付きタスクで有望な結果を示した。
本稿では,変圧器モデルを用いてテクスチャ正規サンプルのマスク特徴を再構成する再構成手法を提案する。
31データセットのベンチマークでの実験では、この再構成ベースの異常検出(AD)メソッドを検索モジュールを介して非パラメトリックな関係で拡張することで、パフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-01-30T14:33:18Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - TabRepo: A Large Scale Repository of Tabular Model Evaluations and its
AutoML Applications [11.173301960468175]
TabRepoは、モデル評価と予測の新しいデータセットである。
200データセットで評価された1206モデルの予測とメトリクスを含んでいる。
論文 参考訳(メタデータ) (2023-11-06T09:17:18Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Capturing Row and Column Semantics in Transformer Based Question
Answering over Tables [9.347393642549806]
これらの特化事前学習技術を用いることなく、テーブルQAタスクにおいて優れた性能が得られることを示す。
最近のベンチマーク実験では、提案手法が表上のセル値を効果的に検出できることが証明されている(ウィキ検索質問のhit@1精度は最大98%)。
論文 参考訳(メタデータ) (2021-04-16T18:22:30Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。