論文の概要: Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks
- arxiv url: http://arxiv.org/abs/2310.00789v1
- Date: Sun, 1 Oct 2023 21:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:59:08.874330
- Title: Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks
- Title(参考訳): 多様なテーブルデータタスクにおけるシーケンスllm事前トレーニングへの統一シーケンスの限界の検証
- Authors: Soumajyoti Sarkar, Leonard Lausen
- Abstract要約: 本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
- 参考スコア(独自算出の注目度): 2.690048852269647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables stored in databases and tables which are present in web pages and
articles account for a large part of semi-structured data that is available on
the internet. It then becomes pertinent to develop a modeling approach with
large language models (LLMs) that can be used to solve diverse table tasks such
as semantic parsing, question answering as well as classification problems.
Traditionally, there existed separate models specialized for each task
individually. It raises the question of how far can we go to build a unified
model that works well on some table tasks without significant degradation on
others. To that end, we attempt at creating a shared modeling approach in the
pretraining stage with encoder-decoder style LLMs that can cater to diverse
tasks. We evaluate our approach that continually pretrains and finetunes
different model families of T5 with data from tables and surrounding context,
on these downstream tasks at different model scales. Through multiple ablation
studies, we observe that our pretraining with self-supervised objectives can
significantly boost the performance of the models on these tasks. As an example
of one improvement, we observe that the instruction finetuned public models
which come specialized on text question answering (QA) and have been trained on
table data still have room for improvement when it comes to table specific QA.
Our work is the first attempt at studying the advantages of a unified approach
to table specific pretraining when scaled from 770M to 11B sequence to sequence
models while also comparing the instruction finetuned variants of the models.
- Abstract(参考訳): webページや記事に存在するデータベースやテーブルに格納されたテーブルは、インターネットで利用可能な半構造化データの大部分を占めている。
次に、意味解析や質問応答、分類問題といった多様なテーブルタスクを解くのに使用できる、大きな言語モデル(LLM)を用いたモデリングアプローチを開発することが重要になる。
伝統的に、各タスクを個別に専門とするモデルが存在した。
これは、テーブルタスクでうまく動作し、他のタスクを著しく劣化させることなく、どの程度統一モデルを構築することができるかという疑問を提起する。
そこで本研究では,エンコーダ・デコーダ方式のLCMを用いて,事前学習段階における共有モデリング手法の構築を試みた。
我々は,t5 の異なるモデルファミリを,異なるモデルスケールでこれらの下流タスクに対して,テーブルや周辺コンテキストからのデータで常に事前学習し,微調整する手法を評価した。
複数のアブレーション研究を通じて,自己教師付き目標を用いた事前訓練が,これらの課題におけるモデルの性能を著しく向上させることを観察した。
1つの改善の例として、テキスト質問応答(QA)に特化してテーブルデータに訓練された命令が、テーブル固有のQAに関してまだ改善の余地があることを観察する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練の統一的なアプローチの利点について研究する最初の試みである。
関連論文リスト
- TableLlama: Towards Open Large Generalist Models for Tables [22.56558262472516]
本稿では,多種多様なテーブルベースタスクのジェネラリストとして,オープンソースの大規模言語モデル(LLM)の開発に向けた第一歩を示す。
本研究では,様々な現実的なテーブルやタスクを備えた新しいデータセットであるTableInstructを構築し,LLMのチューニングと評価を行う。
さらに,LongLoRAを用いてLlama 2 (7B) を微調整することで,テーブル用の最初のオープンソースジェネラリストモデルであるTableLlamaを開発した。
論文 参考訳(メタデータ) (2023-11-15T18:47:52Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - UniMASK: Unified Inference in Sequential Decision Problems [17.09745648221254]
UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
単一のUniMASKモデルは、シングルタスクモデルと同じようなパフォーマンスで多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-11-20T04:54:49Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。