論文の概要: Annotating Columns with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2104.01785v1
- Date: Mon, 5 Apr 2021 06:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:29:56.296869
- Title: Annotating Columns with Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルによる注釈付きカラム
- Authors: Yoshihiko Suhara, Jinfeng Li, Yuliang Li, Dan Zhang, \c{C}a\u{g}atay
Demiralp, Chen Chen, Wang-Chiew Tan
- Abstract要約: テーブル自体の情報のみを用いてテーブル列をアノテートする問題を研究する。
マルチタスク学習アプローチ(doduo)が個々の学習アプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 19.198228335325503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring meta information about tables, such as column headers or
relationships between columns, is an active research topic in data management
as we find many tables are missing some of this information. In this paper, we
study the problem of annotating table columns (i.e., predicting column types
and the relationships between columns) using only information from the table
itself. We show that a multi-task learning approach (called Doduo), trained
using pre-trained language models on both tasks outperforms individual learning
approaches. Experimental results show that Doduo establishes new
state-of-the-art performance on two benchmarks for the column type prediction
and column relation prediction tasks with up to 4.0% and 11.9% improvements,
respectively. We also establish that Doduo can already perform the previous
state-of-the-art performance with a minimal number of tokens, only 8 tokens per
column.
- Abstract(参考訳): 列ヘッダや列間の関係など、テーブルに関するメタ情報を推測することは、データ管理における活発な研究テーマであり、この情報のいくつかがテーブルに欠けていることが分かっています。
本稿では,テーブル自体の情報のみを用いて,テーブル列のアノテート(列の種類と列間の関係の予測)の問題について検討する。
両タスクの事前学習言語モデルを用いて学習したマルチタスク学習手法(Doduoと呼ぶ)が,個々の学習手法より優れていることを示す。
実験の結果,カラム型予測とカラム関係予測の2つのベンチマークにおいて,最大4.0%,11.9%の改善が得られた。
また、Doduoが過去の最先端のパフォーマンスを、最小限のトークンで実行可能であることも確認しています。
関連論文リスト
- TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Leveraging Table Content for Zero-shot Text-to-SQL with Meta-Learning [25.69875174742935]
単一テーブルのテキスト・トゥ・ワンは、自然言語の質問を単一のテーブルに従ってクエリに変換することを目的としている。
我々は、追加のマニュアルアノテーションに依存しないゼロショットテキスト・ツー・ワンタスクに対して、新しいアプローチを提案する。
パブリックなオープンドメインのテキスト・ツー・ワン・データセットとドメイン固有のデータセットEについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-12T01:01:28Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。