論文の概要: Named Entity Recognition in Industrial Tables using Tabular Language
Models
- arxiv url: http://arxiv.org/abs/2209.14812v1
- Date: Thu, 29 Sep 2022 14:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:10:19.857369
- Title: Named Entity Recognition in Industrial Tables using Tabular Language
Models
- Title(参考訳): 語彙モデルを用いた産業用表における名前付きエンティティ認識
- Authors: Aneta Koleva, Martin Ringsquandl, Mark Buckley, Rakebul Hasan and
Volker Tresp
- Abstract要約: 本研究では,これらのモデルを産業用名前付きエンティティ認識(NER)問題に適用する方法について検討する。
スプレッドシートの高度に技術的な性質とラベル付きデータの欠如は、微調整トランスフォーマーベースのモデルにおいて大きな課題となる。
- 参考スコア(独自算出の注目度): 24.287536314062965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specialized transformer-based models for encoding tabular data have gained
interest in academia. Although tabular data is omnipresent in industry,
applications of table transformers are still missing. In this paper, we study
how these models can be applied to an industrial Named Entity Recognition (NER)
problem where the entities are mentioned in tabular-structured spreadsheets.
The highly technical nature of spreadsheets as well as the lack of labeled data
present major challenges for fine-tuning transformer-based models. Therefore,
we develop a dedicated table data augmentation strategy based on available
domain-specific knowledge graphs. We show that this boosts performance in our
low-resource scenario considerably. Further, we investigate the benefits of
tabular structure as inductive bias compared to tables as linearized sequences.
Our experiments confirm that a table transformer outperforms other baselines
and that its tabular inductive bias is vital for convergence of
transformer-based models.
- Abstract(参考訳): 表形式のデータを符号化する特殊なトランスフォーマーベースのモデルは学術的関心を集めている。
表的なデータは産業全体に存在するが、テーブルトランスフォーマーの応用はいまだに欠けている。
本稿では,これらのモデルを,表構造スプレッドシートにエンティティが記述される産業的名前付きエンティティ認識(NER)問題に適用する方法について検討する。
スプレッドシートの技術的特性とラベル付きデータの欠如は、微調整トランスフォーマーベースのモデルにおいて大きな課題となる。
そこで我々は,利用可能なドメイン固有知識グラフに基づく専用テーブルデータ拡張戦略を開発した。
これは低リソースのシナリオでパフォーマンスが大幅に向上することを示している。
さらに,表構造を帰納的バイアスとして,表構造を線形列として比較した。
実験により,テーブルトランスフォーマーは他のベースラインよりも優れており,その表型インダクティブバイアスがトランスフォーマーモデルの収束に不可欠であることを確認した。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - Polynomial-based Self-Attention for Table Representation learning [23.651207486167518]
Transformersの重要なコンポーネントであるセルフアテンションは、過度にスムースな問題を引き起こす可能性がある。
そこで本研究では,行列ベースの自己アテンション層を元の自己アテンション層に代えて,新しい自己アテンション層を提案する。
提案する3つの表学習モデルを用いて実験を行った結果,この層が過度に平滑な問題を効果的に緩和することを示した。
論文 参考訳(メタデータ) (2023-12-12T21:49:26Z) - TabMT: Generating tabular data with masked transformers [0.0]
Masked Transformerは生成モデルや分類器として驚くほど効果的です。
この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:28:11Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。