論文の概要: Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks
- arxiv url: http://arxiv.org/abs/2310.00789v1
- Date: Sun, 1 Oct 2023 21:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:59:08.874330
- Title: Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks
- Title(参考訳): 多様なテーブルデータタスクにおけるシーケンスllm事前トレーニングへの統一シーケンスの限界の検証
- Authors: Soumajyoti Sarkar, Leonard Lausen
- Abstract要約: 本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
- 参考スコア(独自算出の注目度): 2.690048852269647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables stored in databases and tables which are present in web pages and
articles account for a large part of semi-structured data that is available on
the internet. It then becomes pertinent to develop a modeling approach with
large language models (LLMs) that can be used to solve diverse table tasks such
as semantic parsing, question answering as well as classification problems.
Traditionally, there existed separate models specialized for each task
individually. It raises the question of how far can we go to build a unified
model that works well on some table tasks without significant degradation on
others. To that end, we attempt at creating a shared modeling approach in the
pretraining stage with encoder-decoder style LLMs that can cater to diverse
tasks. We evaluate our approach that continually pretrains and finetunes
different model families of T5 with data from tables and surrounding context,
on these downstream tasks at different model scales. Through multiple ablation
studies, we observe that our pretraining with self-supervised objectives can
significantly boost the performance of the models on these tasks. As an example
of one improvement, we observe that the instruction finetuned public models
which come specialized on text question answering (QA) and have been trained on
table data still have room for improvement when it comes to table specific QA.
Our work is the first attempt at studying the advantages of a unified approach
to table specific pretraining when scaled from 770M to 11B sequence to sequence
models while also comparing the instruction finetuned variants of the models.
- Abstract(参考訳): webページや記事に存在するデータベースやテーブルに格納されたテーブルは、インターネットで利用可能な半構造化データの大部分を占めている。
次に、意味解析や質問応答、分類問題といった多様なテーブルタスクを解くのに使用できる、大きな言語モデル(LLM)を用いたモデリングアプローチを開発することが重要になる。
伝統的に、各タスクを個別に専門とするモデルが存在した。
これは、テーブルタスクでうまく動作し、他のタスクを著しく劣化させることなく、どの程度統一モデルを構築することができるかという疑問を提起する。
そこで本研究では,エンコーダ・デコーダ方式のLCMを用いて,事前学習段階における共有モデリング手法の構築を試みた。
我々は,t5 の異なるモデルファミリを,異なるモデルスケールでこれらの下流タスクに対して,テーブルや周辺コンテキストからのデータで常に事前学習し,微調整する手法を評価した。
複数のアブレーション研究を通じて,自己教師付き目標を用いた事前訓練が,これらの課題におけるモデルの性能を著しく向上させることを観察した。
1つの改善の例として、テキスト質問応答(QA)に特化してテーブルデータに訓練された命令が、テーブル固有のQAに関してまだ改善の余地があることを観察する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練の統一的なアプローチの利点について研究する最初の試みである。
関連論文リスト
- Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。
我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。
トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-24T18:50:26Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - TableLlama: Towards Open Large Generalist Models for Tables [22.56558262472516]
本稿では,多種多様なテーブルベースタスクのジェネラリストとして,オープンソースの大規模言語モデル(LLM)の開発に向けた第一歩を示す。
本研究では,様々な現実的なテーブルやタスクを備えた新しいデータセットであるTableInstructを構築し,LLMのチューニングと評価を行う。
さらに,LongLoRAを用いてLlama 2 (7B) を微調整することで,テーブル用の最初のオープンソースジェネラリストモデルであるTableLlamaを開発した。
論文 参考訳(メタデータ) (2023-11-15T18:47:52Z) - UniMASK: Unified Inference in Sequential Decision Problems [17.09745648221254]
UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
単一のUniMASKモデルは、シングルタスクモデルと同じようなパフォーマンスで多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-11-20T04:54:49Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。