論文の概要: TabLib: A Dataset of 627M Tables with Context
- arxiv url: http://arxiv.org/abs/2310.07875v1
- Date: Wed, 11 Oct 2023 20:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:54:36.646255
- Title: TabLib: A Dataset of 627M Tables with Context
- Title(参考訳): tablib: コンテキスト付き627mテーブルのデータセット
- Authors: Gus Eggert, Kevin Huo, Mike Biven, and Justin Waugh
- Abstract要約: TabLibは69 TiBの合計6億2700万のテーブルと867Bのコンテキストトークンで構成されている。
TabLibのサイズと多様性は、The PileやLAIONといったテキストや画像の基本データセットの当初の約束を思い出させるような、テーブルのモダリティにおいてかなりの約束を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-established that large, diverse datasets play a pivotal role in
the performance of modern AI systems for text and image modalities. However,
there are no datasets for tabular data of comparable size and diversity to
those available for text and images. Thus we present "TabLib'', a compilation
of 627 million tables totaling 69 TiB, along with 867B tokens of context.
TabLib was extracted from numerous file formats, including CSV, HTML, SQLite,
PDF, Excel, and others, sourced from GitHub and Common Crawl. The size and
diversity of TabLib offer considerable promise in the table modality,
reminiscent of the original promise of foundational datasets for text and
images, such as The Pile and LAION.
- Abstract(参考訳): テキストと画像のモダリティのための現代のaiシステムのパフォーマンスにおいて、大規模で多様なデータセットが重要な役割を果たすことはよく知られている。
しかし、テキストや画像に匹敵する大きさと多様性の表データのためのデータセットは存在しない。
そこで、69 TiBの合計6億2700万のテーブルと、867Bのコンテキストトークンからなる"TabLib'"を提示する。
TabLibは、GitHubとCommon CrawlからソースされたCSV、HTML、SQLite、PDF、Excelなど、多数のファイルフォーマットから抽出された。
tablibのサイズと多様性はテーブルモダリティにおいて、pillやlaionのようなテキストや画像の基本データセットの当初の約束を思い起こさせるような大きな期待をもたらす。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Rethinking Image-based Table Recognition Using Weakly Supervised Methods [3.9993134366218857]
本稿では,WSTabNet というテーブル認識のための弱教師付きモデルを提案する。
深層学習によるテーブル認識を容易にするため、ウィキペディアから構築された最大規模の表画像ベースデータセットであるWikiTableSetを作成した。
論文 参考訳(メタデータ) (2023-03-14T06:03:57Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z) - TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文 参考訳(メタデータ) (2021-05-12T05:13:38Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。