論文の概要: Table Pretraining: A Survey on Model Architectures, Pretraining
Objectives, and Downstream Tasks
- arxiv url: http://arxiv.org/abs/2201.09745v1
- Date: Mon, 24 Jan 2022 15:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 16:16:19.158068
- Title: Table Pretraining: A Survey on Model Architectures, Pretraining
Objectives, and Downstream Tasks
- Title(参考訳): テーブル事前トレーニング:モデルアーキテクチャ、事前トレーニング目標、ダウンストリームタスクに関する調査
- Authors: Haoyu Dong, Zhoujun Cheng, Xinyi He, Mengyu Zhou, Anda Zhou, Fan Zhou,
Ao Liu, Shi Han, Dongmei Zhang
- Abstract要約: テキストや画像の成功を受けて、テーブル事前学習フレームワークの急激な普及が提案されている。
表の事前訓練は通常、表とテキストの合同の事前訓練の形式を取る。
この調査は、異なるモデル設計の包括的なレビュー、事前学習の目的、およびテーブル事前学習のための下流タスクを提供することを目的としている。
- 参考スコア(独自算出の注目度): 37.35651138851127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since a vast number of tables can be easily collected from web pages,
spreadsheets, PDFs, and various other document types, a flurry of table
pretraining frameworks have been proposed following the success of text and
images, and they have achieved new state-of-the-arts on various tasks such as
table question answering, table type recognition, column relation
classification, table search, formula prediction, etc. To fully use the
supervision signals in unlabeled tables, a variety of pretraining objectives
have been designed and evaluated, for example, denoising cell values,
predicting numerical relationships, and implicitly executing SQLs. And to best
leverage the characteristics of (semi-)structured tables, various tabular
language models, particularly with specially-designed attention mechanisms,
have been explored. Since tables usually appear and interact with free-form
text, table pretraining usually takes the form of table-text joint pretraining,
which attracts significant research interests from multiple domains. This
survey aims to provide a comprehensive review of different model designs,
pretraining objectives, and downstream tasks for table pretraining, and we
share our thoughts and vision on existing challenges and future opportunities.
- Abstract(参考訳): Webページやスプレッドシート,PDF,その他さまざまなドキュメントタイプから,膨大な数のテーブルを簡単に収集できるため,テキストや画像の成功に伴い,テーブル事前学習フレームワークが急増し,テーブル質問応答,テーブル型認識,列関係分類,テーブル検索,公式予測など,さまざまなタスクにおいて新たな最先端技術を実現している。
ラベルのないテーブルで監視信号を完全に使用するために、セル値の非表示、数値関係の予測、暗黙的なsql実行など、さまざまな事前学習目標が設計、評価されている。
また、(半)構造化テーブルの特性を最大限活用するために、様々な表言語モデル、特に特別に設計された注意機構について検討した。
テーブルは通常、自由形式のテキストで表示され、相互作用するため、テーブル事前訓練は通常、テーブル-テキスト共同事前訓練の形式を取る。
本調査は,テーブル事前トレーニングのための異なるモデル設計,事前トレーニング目標,下流タスクの包括的レビューを提供することを目的としており,既存の課題と今後の機会に関する考え方とビジョンを共有している。
関連論文リスト
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。