論文の概要: Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize
Tables without Using Examples
- arxiv url: http://arxiv.org/abs/2307.14565v2
- Date: Wed, 9 Aug 2023 04:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:01:35.182225
- Title: Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize
Tables without Using Examples
- Title(参考訳): Auto-Tables: 例を使わずにテーブルをリレーショナル化するマルチステップ変換の合成
- Authors: Peng Li, Yeye He, Cong Yan, Yue Wang, Surajit Chaudhuri
- Abstract要約: Auto-Tablesは、非リレーショナルテーブルをダウンストリーム分析のための標準リレーショナルフォームに自動的に変換する。
評価の結果,Auto-Tables はテストケースの70%以上をインタラクティブな速度で変換できることがわかった。
- 参考スコア(独自算出の注目度): 24.208275772387683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational tables, where each row corresponds to an entity and each column
corresponds to an attribute, have been the standard for tables in relational
databases. However, such a standard cannot be taken for granted when dealing
with tables "in the wild". Our survey of real spreadsheet-tables and web-tables
shows that over 30% of such tables do not conform to the relational standard,
for which complex table-restructuring transformations are needed before these
tables can be queried easily using SQL-based analytics tools. Unfortunately,
the required transformations are non-trivial to program, which has become a
substantial pain point for technical and non-technical users alike, as
evidenced by large numbers of forum questions in places like StackOverflow and
Excel/Power-BI/Tableau forums.
We develop an Auto-Tables system that can automatically synthesize pipelines
with multi-step transformations (in Python or other languages), to transform
non-relational tables into standard relational forms for downstream analytics,
obviating the need for users to manually program transformations. We compile an
extensive benchmark for this new task, by collecting 244 real test cases from
user spreadsheets and online forums. Our evaluation suggests that Auto-Tables
can successfully synthesize transformations for over 70% of test cases at
interactive speeds, without requiring any input from users, making this an
effective tool for both technical and non-technical users to prepare data for
analytics.
- Abstract(参考訳): 各行がエンティティに対応し、各列が属性に対応しているリレーショナルテーブルは、リレーショナルデータベースにおけるテーブルの標準となっている。
しかし、そのような標準は「野生の」テーブルを扱うときに当然のことだとは考えられない。
実際のスプレッドシートテーブルとwebテーブルに関する調査では、このようなテーブルの30%以上がリレーショナル標準に準拠していないことが分かりました。
StackOverflowやExcel/Power-BI/Tableauフォーラムなど,多数のフォーラムの質問が証明しているように,技術的および非技術的ユーザにとって,プログラムに必要な変換は大きな問題ではない。
我々は,マルチステップ変換(Pythonや他の言語)でパイプラインを自動的に合成し,非リレーショナルテーブルを標準リレーショナル形式に変換して下流分析を行い,ユーザが手動でトランスフォーメーションをプログラムする必要をなくすオートテイブルシステムを開発した。
ユーザスプレッドシートとオンラインフォーラムから244の実際のテストケースを収集することで、この新しいタスクの広範なベンチマークをコンパイルする。
評価の結果, 自動テーブルはユーザからの入力を必要とせず, 70%以上のテストケースに対して, インタラクティブな速度で変換を効果的に合成できることが示唆された。
関連論文リスト
- Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval [52.592071689901196]
本稿では,テーブル検索において,任意のクエリやデータベースに対して有用な結合関係を明らかにする手法を提案する。
提案手法は,F1スコアの最大9.3%,エンドツーエンドQAの最大5.4%の精度で,テーブル検索の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-15T15:55:01Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Generate, Transform, Answer: Question Specific Tool Synthesis for
Tabular Data [6.3455238301221675]
タブラル質問応答(TQA)は、ニューラルネットワークにとって困難な設定である。
TQAプロセステーブルは直接的に処理され、テーブルのサイズが大きくなると情報損失が発生する。
本稿では,クエリ固有のプログラムを生成して,テーブルの変換にいつ適用すればよいかを検出するツールWriterを提案する。
論文 参考訳(メタデータ) (2023-03-17T17:26:56Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - MATE: Multi-view Attention for Table Transformer Efficiency [21.547074431324024]
ウェブ上のリレーショナルテーブルの20%以上が20行以上の行を持っている。
現在のTransformerモデルは一般的に512トークンに制限されている。
本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。
論文 参考訳(メタデータ) (2021-09-09T14:39:30Z) - Capturing Row and Column Semantics in Transformer Based Question
Answering over Tables [9.347393642549806]
これらの特化事前学習技術を用いることなく、テーブルQAタスクにおいて優れた性能が得られることを示す。
最近のベンチマーク実験では、提案手法が表上のセル値を効果的に検出できることが証明されている(ウィキ検索質問のhit@1精度は最大98%)。
論文 参考訳(メタデータ) (2021-04-16T18:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。