論文の概要: Handling big tabular data of ICT supply chains: a multi-task,
machine-interpretable approach
- arxiv url: http://arxiv.org/abs/2208.06031v1
- Date: Thu, 11 Aug 2022 20:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:25:05.521753
- Title: Handling big tabular data of ICT supply chains: a multi-task,
machine-interpretable approach
- Title(参考訳): ictサプライチェーンの大きな表データを扱う:マルチタスク、機械解釈可能なアプローチ
- Authors: Bin Xiao, Murat Simsek, Burak Kantarci and Ala Abu Alkheir
- Abstract要約: 表構造認識(TSR)タスクと表細胞型分類(CTC)タスクを定義する。
提案手法は, ICDAR2013およびUNLVデータセットにおいて, 最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 13.976736586808308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the characteristics of Information and Communications Technology (ICT)
products, the critical information of ICT devices is often summarized in big
tabular data shared across supply chains. Therefore, it is critical to
automatically interpret tabular structures with the surging amount of
electronic assets. To transform the tabular data in electronic documents into a
machine-interpretable format and provide layout and semantic information for
information extraction and interpretation, we define a Table Structure
Recognition (TSR) task and a Table Cell Type Classification (CTC) task. We use
a graph to represent complex table structures for the TSR task. Meanwhile,
table cells are categorized into three groups based on their functional roles
for the CTC task, namely Header, Attribute, and Data. Subsequently, we propose
a multi-task model to solve the defined two tasks simultaneously by using the
text modal and image modal features. Our experimental results show that our
proposed method can outperform state-of-the-art methods on ICDAR2013 and UNLV
datasets.
- Abstract(参考訳): ICT(Information and Communications Technology, 情報通信技術)製品の特徴から, ICT機器の臨界情報はサプライチェーン間で共有される大きな表形式で要約されることが多い。
したがって,電子資産の急増量で表構造を自動的に解釈することが重要である。
電子文書の表データを機械解釈可能な形式に変換し,情報抽出・解釈のためのレイアウトと意味情報を提供するために,表構造認識(TSR)タスクと表細胞型分類(CTC)タスクを定義する。
tsrタスクの複雑なテーブル構造を表現するのにグラフを使用します。
一方、表細胞は、CTCタスクの機能的役割、すなわちヘッダ、属性、データに基づいて3つのグループに分類される。
次に,テキストモダルと画像モダル特徴を用いて,定義された2つのタスクを同時に解くマルチタスクモデルを提案する。
ICDAR2013およびUNLVデータセットにおいて,提案手法が最先端の手法より優れていることを示す。
関連論文リスト
- UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining [25.04573593082671]
テーブル構造認識(TSR)のトレーニングパラダイムとトレーニング目標を一体化するトレーニングフレームワークUniTableを提案する。
本フレームワークは、テーブル構造、セル内容、セル境界ボックス(bbox)を抽出する3つのTSRタスクの学習目標を、タスク非依存の訓練目標である言語モデリングに統一する。
論文 参考訳(メタデータ) (2024-03-07T15:44:50Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Efficient Information Sharing in ICT Supply Chain Social Network via
Table Structure Recognition [12.79419287446918]
テーブル構造認識(TSR)は、機械解釈可能な形式で複雑な構造を持つテーブルを表現することを目的としている。
我々は、Faster-RCNNに基づく提案手法を実装し、平均精度(AP)で94.79%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:03:07Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。