論文の概要: TABLET: Learning From Instructions For Tabular Data
- arxiv url: http://arxiv.org/abs/2304.13188v1
- Date: Tue, 25 Apr 2023 23:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:03:47.248832
- Title: TABLET: Learning From Instructions For Tabular Data
- Title(参考訳): tablet: 表データのための指示から学ぶ
- Authors: Dylan Slack and Sameer Singh
- Abstract要約: TABLETは、20の多様なデータセットのベンチマークで、その説明、粒度、技術的に異なる命令をアノテートする。
テキスト内命令はFlan-T5 11bのゼロショットF1性能を平均44%向上し,TABLETのChatGPTは13%向上した。
- 参考スコア(独自算出の注目度): 46.62140500101618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring high-quality data is often a significant challenge in training
machine learning (ML) models for tabular prediction, particularly in
privacy-sensitive and costly domains like medicine and finance. Providing
natural language instructions to large language models (LLMs) offers an
alternative solution. However, it is unclear how effectively instructions
leverage the knowledge in LLMs for solving tabular prediction problems. To
address this gap, we introduce TABLET, a benchmark of 20 diverse tabular
datasets annotated with instructions that vary in their phrasing, granularity,
and technicality. Additionally, TABLET includes the instructions' logic and
structured modifications to the instructions. We find in-context instructions
increase zero-shot F1 performance for Flan-T5 11b by 44% on average and 13% for
ChatGPT on TABLET. Also, we explore the limitations of using LLMs for tabular
prediction in our benchmark by evaluating instruction faithfulness. We find
LLMs often ignore instructions and fail to predict specific instances
correctly, even with examples. Our analysis on TABLET shows that, while
instructions help LLM performance, learning from instructions for tabular data
requires new capabilities.
- Abstract(参考訳): 高品質なデータを取得することは、表的な予測のための機械学習(ml)モデルをトレーニングする上で、しばしば重要な課題である。
大規模言語モデル(LLM)への自然言語命令の提供は代替ソリューションを提供する。
しかし,表予測問題に対するllmの知識をいかに効果的に活用するかは明らかでない。
このギャップに対処するために、私たちはタブレットを紹介します。タブレットは20の多様な表型データセットのベンチマークで、そのフラージング、粒度、技術性によって異なる指示を注釈付けしています。
さらに、TABLETには命令のロジックと命令の構造化変更が含まれている。
テキスト内命令はFlan-T5 11bのゼロショットF1性能を平均44%、TABLETのChatGPTでは13%向上させる。
また,本ベンチマークにおける表予測にllmを用いた場合の制限について,命令忠実性の評価により検討する。
LLMは命令を無視し、例でも特定のインスタンスを正しく予測できないことが多い。
TABLET を用いた解析では,命令が LLM のパフォーマンスを補助する一方で,表データの命令から学習するには新たな機能が必要であることが示された。
関連論文リスト
- Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文 参考訳(メタデータ) (2024-10-10T05:34:00Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - AnnotatedTables: A Large Tabular Dataset with Language Model Annotations [8.602181445598776]
本稿では,多種多様な表データのアノテーションを機械学習で自動生成する方法を示す。
LLM生成アノテーションを備えた32,119のデータベースのコレクションであるAnnotatedTablesをリリースしました。
LLMによって同定された入力ターゲット列を持つ2,720のテーブル上で,ベイジアン事前訓練を行った最近のニューラルネットワーク分類器であるTabPFNの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-24T06:44:14Z) - On the Robustness of Language Models for Tabular Question Answering [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
我々は、ウィキペディアベースの$textbfWTQ$および財務報告ベースの$textbfTAT-QA$TQAデータセット上でLLMの堅牢性を評価する。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。