論文の概要: CARTE: pretraining and transfer for tabular learning
- arxiv url: http://arxiv.org/abs/2402.16785v1
- Date: Mon, 26 Feb 2024 18:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:53:47.406385
- Title: CARTE: pretraining and transfer for tabular learning
- Title(参考訳): carte: 表学習のための事前トレーニングと転送
- Authors: Myung Jun Kim, L\'eo Grinsztajn, and Ga\"el Varoquaux
- Abstract要約: 本稿では,列のスキーママッチングやエントリのエンティティマッチングを必要としないニューラルネットワークを提案する。
アーキテクチャ - CARTE for Context Aware Representation of Table Entries - はグラフ表現を使って異なる列のテーブルを処理する。
広範なベンチマークでは、CARTEが学習を容易にし、最高のツリーベースモデルを含む一連のベースラインを上回ることが示されている。
- 参考スコア(独自算出の注目度): 0.6267574471145216
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained deep-learning models are the go-to solution for images or text.
However, for tabular data the standard is still to train tree-based models.
Pre-training or transfer is a huge challenge as in general tables have columns
about different quantities and naming conventions that vary vastly across
sources. Data integration tackles correspondences across multiple sources:
schema matching for columns, and entity matching for entries. We propose a
neural architecture that does not need such matches. As a result, we can
pretrain it on background data that has not been matched. The architecture -
CARTE for Context Aware Representation of Table Entries - uses a graph
representation of tabular (or relational) data to process tables with different
columns, string embeddings of entries and columns names to model an open
vocabulary, and a graph-attentional network to contextualize entries with
column names and neighboring entries. An extensive benchmark shows that CARTE
facilitates learning, outperforming a solid set of baselines including the best
tree-based models. CARTE also enables joint learning across tables with
unmatched columns, enhancing a small table with bigger ones. CARTE opens the
door to large pretrained models embarking information for tabular data.
- Abstract(参考訳): 事前訓練されたディープラーニングモデルは、画像やテキストのゴーツーソリューションである。
しかし、表データの場合、標準は木ベースのモデルをトレーニングすることである。
事前トレーニングや転送は、一般的なテーブルには、ソースによって大きく異なる量や命名規則に関する列があるため、大きな課題である。
データ統合は、列のスキーママッチングとエントリのエンティティマッチングという、複数のソース間の対応に取り組む。
このようなマッチングを必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに事前トレーニングすることができる。
テーブルエントリのコンテキストを意識した表現のためのアーキテクチャーカート - 異なる列でテーブルを処理するために表(あるいはリレーショナル)データのグラフ表現、オープンボキャブラリをモデル化するためにエントリと列名の文字列埋め込み、そして列名と隣接するエントリでエントリをコンテキスト化するグラフ対応ネットワークを使用する。
広範なベンチマークでは、CARTEが学習を容易にし、最高のツリーベースモデルを含む一連のベースラインを上回ることが示されている。
CARTEはまた、マッチしない列を持つテーブル間の共同学習を可能にし、より大きな列を持つ小さなテーブルを拡張する。
CARTEは、大きな事前訓練されたモデルへの扉を開く。
関連論文リスト
- Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - GitTables: A Large-Scale Corpus of Relational Tables [3.1218214157681277]
GitHubから抽出された100万のリレーショナルテーブルのコーパスであるGitTablesを紹介します。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
我々はGitTablesの3つのアプリケーションを紹介し、学習したセマンティック型検出モデル、補完方法、テーブル-ツー-KGマッチング、データ検索、準備のためのベンチマークについてその価値を示す。
論文 参考訳(メタデータ) (2021-06-14T09:22:09Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。