論文の概要: HYTREL: Hypergraph-enhanced Tabular Data Representation Learning
- arxiv url: http://arxiv.org/abs/2307.08623v1
- Date: Fri, 14 Jul 2023 05:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:05:20.487873
- Title: HYTREL: Hypergraph-enhanced Tabular Data Representation Learning
- Title(参考訳): HYTREL:ハイパーグラフ強化タブラルデータ表現学習
- Authors: Pei Chen, Soumajyoti Sarkar, Leonard Lausen, Balasubramaniam
Srinivasan, Sheng Zha, Ruihong Huang and George Karypis
- Abstract要約: HYTRELは、行/列の置換不変性と、表データの3つのより構造的な特性をキャプチャする言語モデルである。
HYTRELは、最小限の事前学習を伴う4つの下流タスクにおいて、他の競争ベースラインを一貫して上回ることを示す。
我々の定性的分析は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することができることを示した。
- 参考スコア(独自算出の注目度): 27.132140887817286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models pretrained on large collections of tabular data have
demonstrated their effectiveness in several downstream tasks. However, many of
these models do not take into account the row/column permutation invariances,
hierarchical structure, etc. that exist in tabular data. To alleviate these
limitations, we propose HYTREL, a tabular language model, that captures the
permutation invariances and three more structural properties of tabular data by
using hypergraphs - where the table cells make up the nodes and the cells
occurring jointly together in each row, column, and the entire table are used
to form three different types of hyperedges. We show that HYTREL is maximally
invariant under certain conditions for tabular data, i.e., two tables obtain
the same representations via HYTREL iff the two tables are identical up to
permutations. Our empirical results demonstrate that HYTREL consistently
outperforms other competitive baselines on four downstream tasks with minimal
pretraining, illustrating the advantages of incorporating the inductive biases
associated with tabular data into the representations. Finally, our qualitative
analyses showcase that HYTREL can assimilate the table structures to generate
robust representations for the cells, rows, columns, and the entire table.
- Abstract(参考訳): 大量の表データの収集に事前訓練された言語モデルは、いくつかの下流タスクでその効果を実証している。
しかし、これらのモデルの多くは、表データに存在する行/列の置換不変性、階層構造などを考慮していない。
これらの制限を緩和するために,表型言語モデルであるhytrelを提案する。このモデルでは,表型データの置換不変性と3つの構造的特性をハイパーグラフを用いてキャプチャする。
表型データに対して, HYTREL が最大不変であること,すなわち 2 つのテーブルが HYTREL によって同じ表現を得ることを示す。
実験の結果, HYTRELは, 4つの下流タスクにおいて, 最小限の事前学習で競争ベースラインを一貫して上回り, 表象データに関連する帰納バイアスを表現に組み込むことの利点が示された。
最後に、我々は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することを示した。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - GridFormer: Towards Accurate Table Structure Recognition via Grid
Prediction [35.15882175670814]
制約のないテーブル構造を解釈する新しい手法であるGridFormerを提案する。
本稿では,MXNグリッドの形式でフレキシブルなテーブル表現を提案する。
そして,DTR型テーブル構造認識器を導入し,このグリッドの多目的情報を単一ショットで効率的に予測する。
論文 参考訳(メタデータ) (2023-09-26T14:29:45Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。