論文の概要: TableLab: An Interactive Table Extraction System with Adaptive Deep
Learning
- arxiv url: http://arxiv.org/abs/2102.08445v1
- Date: Tue, 16 Feb 2021 20:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 04:03:05.151317
- Title: TableLab: An Interactive Table Extraction System with Adaptive Deep
Learning
- Title(参考訳): TableLab: 適応的ディープラーニングを用いた対話型テーブル抽出システム
- Authors: Nancy Xin Ru Wang, Douglas Burdick, Yunyao Li
- Abstract要約: TableLabは、ユーザとモデルがシームレスに連携して高品質の抽出モデルを迅速にカスタマイズするシステムを提供する。
TableLabは最初に、抽出モデルから埋め込みをクラスタリングすることで、同様の構造(テンプレート)を持つテーブルを検出する。
そして、事前訓練されたベースディープラーニングモデルで抽出されたいくつかの代表テーブルの例を選択する。
- 参考スコア(独自算出の注目度): 10.260356995275957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table extraction from PDF and image documents is a ubiquitous task in the
real-world. Perfect extraction quality is difficult to achieve with one single
out-of-box model due to (1) the wide variety of table styles, (2) the lack of
training data representing this variety and (3) the inherent ambiguity and
subjectivity of table definitions between end-users. Meanwhile, building
customized models from scratch can be difficult due to the expensive nature of
annotating table data. We attempt to solve these challenges with TableLab by
providing a system where users and models seamlessly work together to quickly
customize high-quality extraction models with a few labelled examples for the
user's document collection, which contains pages with tables. Given an input
document collection, TableLab first detects tables with similar structures
(templates) by clustering embeddings from the extraction model. Document
collections often contain tables created with a limited set of templates or
similar structures. It then selects a few representative table examples already
extracted with a pre-trained base deep learning model. Via an easy-to-use user
interface, users provide feedback to these selections without necessarily
having to identify every single error. TableLab then applies such feedback to
finetune the pre-trained model and returns the results of the finetuned model
back to the user. The user can choose to repeat this process iteratively until
obtaining a customized model with satisfactory performance.
- Abstract(参考訳): pdfおよび画像文書からのテーブル抽出は、現実世界においてユビキタスなタスクである。
完全抽出品質は,(1)表形式が多様であること,(2)表形式を表わす訓練データの欠如,(3)表定義の本来の曖昧さと主観性により,一つのアウト・オブ・ボックスモデルで達成することは困難である。
一方、アノテートテーブルデータの高価な性質のため、スクラッチからカスタマイズされたモデルを構築することは困難である。
ユーザとモデルがシームレスに連携して高品質な抽出モデルを素早くカスタマイズするシステムを提供し,テーブルのあるページを含むユーザのドキュメントコレクションにラベル付きサンプルを添付することで,これらの課題を解決する。
入力ドキュメントコレクションが与えられると、tablelabは抽出モデルから埋め込みをクラスタリングすることで、最初に同様の構造(テンプレート)を持つテーブルを検出する。
ドキュメントコレクションは、テンプレートまたは類似の構造の限られたセットで作成されたテーブルを含むことが多い。
そして、事前訓練されたベースディープラーニングモデルで抽出されたいくつかの代表テーブルの例を選択する。
使いやすいユーザーインターフェイスを介して、ユーザーはすべてのエラーを識別することなく、これらの選択にフィードバックを提供します。
次にtablelabは、事前学習したモデルを微調整するためにこのようなフィードバックを適用し、微調整されたモデルの結果をユーザに返す。
ユーザーは満足な性能のカスタマイズされたモデルを得るまで、このプロセスを反復的に繰り返すことができます。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。