Fugu-MT 論文翻訳(概要): Retrieval-Based Transformer for Table Augmentation

論文の概要: Retrieval-Based Transformer for Table Augmentation

arxiv url: http://arxiv.org/abs/2306.11843v1
Date: Tue, 20 Jun 2023 18:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 16:06:45.929610
Title: Retrieval-Based Transformer for Table Augmentation
Title（参考訳）: テーブル拡張のための検索型変換器
Authors: Michael Glass, Xueqing Wu, Ankita Rajaram Naik, Gaetano Rossiello, Alfio Gliozzo
Abstract要約: 我々は、自動データラングリングに対する新しいアプローチを導入する。本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
参考スコア（独自算出の注目度）: 14.460363647772745
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data preparation, also called data wrangling, is considered one of the most expensive and time-consuming steps when performing analytics or building machine learning models. Preparing data typically involves collecting and merging data from complex heterogeneous, and often large-scale data sources, such as data lakes. In this paper, we introduce a novel approach toward automatic data wrangling in an attempt to alleviate the effort of end-users, e.g. data analysts, in structuring dynamic views from data lakes in the form of tabular data. We aim to address table augmentation tasks, including row/column population and data imputation. Given a corpus of tables, we propose a retrieval augmented self-trained transformer model. Our self-learning strategy consists in randomly ablating tables from the corpus and training the retrieval-based model to reconstruct the original values or headers given the partial tables as input. We adopt this strategy to first train the dense neural retrieval model encoding table-parts to vectors, and then the end-to-end model trained to perform table augmentation tasks. We test on EntiTables, the standard benchmark for table augmentation, as well as introduce a new benchmark to advance further research: WebTables. Our model consistently and substantially outperforms both supervised statistical methods and the current state-of-the-art transformer-based models.
Abstract（参考訳）: データ準備は、データラングリングとも呼ばれ、分析や機械学習モデルの構築において、最も高価で時間を要するステップの1つである。データの準備は通常、複雑な異種データや、データレイクのような大規模データソースからのデータを収集してマージする。本稿では,データレイクからの動的ビューを表型データとして構造化するための,エンドユーザの努力,例えばデータアナリストの努力を緩和する試みとして,自動データラングリングへの新しいアプローチを提案する。我々は、列/列の人口とデータインプテーションを含むテーブル拡張タスクに対処することを目的としている。テーブルのコーパスが与えられた場合,検索拡張自己学習トランスフォーマーモデルを提案する。我々の自己学習戦略は、コーパスからランダムにテーブルを非難し、部分テーブルを入力として与えられた元の値やヘッダを再構築する検索ベースモデルを訓練する。この戦略を用いて、まずテーブル部分をベクトルに符号化する高密度ニューラルネットワークモデルを訓練し、次にテーブル拡張タスクを実行するために訓練されたエンドツーエンドモデルを訓練する。私たちは、テーブル拡張の標準ベンチマークであるEntiTablesをテストし、さらに研究を進めるための新しいベンチマーク、WebTablesを導入しました。提案モデルは, 統計的手法と現在の変圧器に基づくモデルの両方を, 一貫して, 実質的に上回っている。

関連論文リスト

Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文参考訳（メタデータ） (2025-04-17T17:58:23Z)
Transformers Meet Relational Databases [0.0]
トランスフォーマーモデルは、基礎となるシーケンス対シーケンス表現に変換可能なすべての機械学習ドメインに継続的に拡張されている。本稿では,形式的リレーショナルモデルに忠実に準拠するモジュール型ニューラルメッセージパッシング方式を提案する。本研究は,新たに提案されたニューラルアーキテクチャのクラスにおいて,優れた性能を示すものである。
論文参考訳（メタデータ） (2024-12-06T17:48:43Z)
TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文参考訳（メタデータ） (2024-10-15T20:08:08Z)
RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。 RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文参考訳（メタデータ） (2024-07-29T14:46:13Z)
TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文参考訳（メタデータ） (2024-06-28T17:28:53Z)
Relational Deep Learning: Graph Representation Learning on Relational Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文参考訳（メタデータ） (2023-12-07T18:51:41Z)
TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications [9.457938949410583]
TabRepoは、モデル評価と予測の新しいデータセットである。 200データセットで評価された1310モデルの予測とメトリクスを含んでいる。
論文参考訳（メタデータ） (2023-11-06T09:17:18Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文参考訳（メタデータ） (2023-02-04T00:32:50Z)
Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文参考訳（メタデータ） (2022-11-23T00:04:57Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。