論文の概要: A Lightweight Algorithm to Uncover Deep Relationships in Data Tables
- arxiv url: http://arxiv.org/abs/2009.03358v1
- Date: Mon, 7 Sep 2020 18:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:37:08.462430
- Title: A Lightweight Algorithm to Uncover Deep Relationships in Data Tables
- Title(参考訳): データテーブルの深い関係を明らかにする軽量アルゴリズム
- Authors: Jin Cao and Yibo Zhao and Linjun Zhang and Jason Li
- Abstract要約: 専門家やドメインの知識を使わずに、単一のデータテーブルで深い関係を明らかにする自動化手法を開発した。
提案手法では,データテーブルを小さなテーブルの層に分解し,その深い構造を明らかにする。
私たちのソリューションでは、新しいデータセットを探索するときに、データサイエンティストが自動的に生成されたデータ駆動の洞察を提供する。
- 参考スコア(独自算出の注目度): 16.829302261959924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many data we collect today are in tabular form, with rows as records and
columns as attributes associated with each record. Understanding the structural
relationship in tabular data can greatly facilitate the data science process.
Traditionally, much of this relational information is stored in table schema
and maintained by its creators, usually domain experts. In this paper, we
develop automated methods to uncover deep relationships in a single data table
without expert or domain knowledge. Our method can decompose a data table into
layers of smaller tables, revealing its deep structure. The key to our approach
is a computationally lightweight forward addition algorithm that we developed
to recursively extract the functional dependencies between table columns that
are scalable to tables with many columns. With our solution, data scientists
will be provided with automatically generated, data-driven insights when
exploring new data sets.
- Abstract(参考訳): 今日収集した多くのデータは表形式で、行をレコードとして、列をレコードに関連付けています。
表形式のデータの構造的関係を理解することは、データサイエンスプロセスを大幅に促進する。
伝統的に、これらの関係情報はテーブルスキーマに格納され、作成者(通常はドメインエキスパート)によって保持される。
本稿では,専門家やドメイン知識を必要とせず,単一のデータテーブルで深い関係を明らかにする自動化手法を開発する。
本手法は,データテーブルを小さなテーブルの層に分解し,その深層構造を明らかにする。
我々のアプローチの鍵は計算量的に軽量な前方加算アルゴリズムであり、多数の列を持つテーブルにスケーラブルなテーブル列間の関数的依存関係を再帰的に抽出するために開発した。
我々のソリューションでは、データサイエンティストは新しいデータセットを探索する際に自動的に生成されたデータ駆動の洞察を提供する。
関連論文リスト
- Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - BERT Meets Relational DB: Contextual Representations of Relational
Databases [4.029818252558553]
複数のテーブルからなる関係データベース上でエンティティの低次元表現を学習する問題に対処する。
これらの注意に基づくモデルを使用して、リレーショナルデータベース内のエンティティの埋め込みを学ぶ方法を検討します。
論文 参考訳(メタデータ) (2021-04-30T11:23:26Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。