論文の概要: GitTables: A Large-Scale Corpus of Relational Tables
- arxiv url: http://arxiv.org/abs/2106.07258v5
- Date: Wed, 12 Apr 2023 13:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:41:16.968029
- Title: GitTables: A Large-Scale Corpus of Relational Tables
- Title(参考訳): GitTables:リレーショナルテーブルの大規模コーパス
- Authors: Madelon Hulsebos, \c{C}a\u{g}atay Demiralp, Paul Groth
- Abstract要約: GitHubから抽出された100万のリレーショナルテーブルのコーパスであるGitTablesを紹介します。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
我々はGitTablesの3つのアプリケーションを紹介し、学習したセマンティック型検出モデル、補完方法、テーブル-ツー-KGマッチング、データ検索、準備のためのベンチマークについてその価値を示す。
- 参考スコア(独自算出の注目度): 3.1218214157681277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of deep learning has sparked interest in improving relational
table tasks, like data preparation and search, with table representation models
trained on large table corpora. Existing table corpora primarily contain tables
extracted from HTML pages, limiting the capability to represent offline
database tables. To train and evaluate high-capacity models for applications
beyond the Web, we need resources with tables that resemble relational database
tables. Here we introduce GitTables, a corpus of 1M relational tables extracted
from GitHub. Our continuing curation aims at growing the corpus to at least 10M
tables. Analyses of GitTables show that its structure, content, and topical
coverage differ significantly from existing table corpora. We annotate table
columns in GitTables with semantic types, hierarchical relations and
descriptions from Schema.org and DBpedia. The evaluation of our annotation
pipeline on the T2Dv2 benchmark illustrates that our approach provides results
on par with human annotations. We present three applications of GitTables,
demonstrating its value for learned semantic type detection models, schema
completion methods, and benchmarks for table-to-KG matching, data search, and
preparation. We make the corpus and code available at
https://gittables.github.io.
- Abstract(参考訳): ディープラーニングの成功は、大規模なテーブルコーパスで訓練されたテーブル表現モデルを用いて、データ準備や検索といったリレーショナルテーブルタスクの改善への関心を喚起した。
既存のテーブルコーパスは、主にHTMLページから抽出されたテーブルを含み、オフラインのデータベーステーブルを表現する能力を制限する。
Web以外のアプリケーションの高容量モデルをトレーニングし、評価するには、関係データベーステーブルに似たテーブルを持つリソースが必要です。
ここでは、githubから抽出した1mのリレーショナルテーブルのコーパスであるgittablesを紹介する。
私たちの継続的なキュレーションは、コーパスを少なくとも1000mのテーブルに拡大することを目的としています。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
テーブル列に意味型、階層的関係、schema.orgとdbpediaからの記述をアノテートします。
t2dv2ベンチマークにおけるアノテーションパイプラインの評価は、我々のアプローチが人間のアノテーションと同等の結果を提供することを示している。
本稿では,gittablesの3つの応用例を示し,学習した意味型検出モデル,スキーマ補完手法,テーブル間マッチング,データ検索,準備のためのベンチマークについて述べる。
コーパスとコードはhttps://gittables.github.io.com/で利用可能です。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - CARTE: Pretraining and Transfer for Tabular Learning [10.155109224816334]
このような対応を必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。
ベンチマークでは、CARTEが学習を促進し、ベースラインの堅実なセットを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Rethinking Image-based Table Recognition Using Weakly Supervised Methods [3.9993134366218857]
本稿では,WSTabNet というテーブル認識のための弱教師付きモデルを提案する。
深層学習によるテーブル認識を容易にするため、ウィキペディアから構築された最大規模の表画像ベースデータセットであるWikiTableSetを作成した。
論文 参考訳(メタデータ) (2023-03-14T06:03:57Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TableParser: Automatic Table Parsing with Weak Supervision from
Spreadsheets [5.5347995556789105]
本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。
また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
論文 参考訳(メタデータ) (2022-01-05T15:21:06Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。