論文の概要: TabLLM: Few-shot Classification of Tabular Data with Large Language
Models
- arxiv url: http://arxiv.org/abs/2210.10723v1
- Date: Wed, 19 Oct 2022 17:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:01:21.201567
- Title: TabLLM: Few-shot Classification of Tabular Data with Large Language
Models
- Title(参考訳): tabllm: 大きな言語モデルによる表データの少数ショット分類
- Authors: Stefan Hegselmann, Alejandro Buendia, Hunter Lang, Monica Agrawal,
Xiaoyi Jiang, David Sontag
- Abstract要約: 大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
- 参考スコア(独自算出の注目度): 66.03023402174138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the application of large language models to zero-shot and few-shot
classification of tabular data. We prompt the large language model with a
serialization of the tabular data to a natural-language string, together with a
short description of the classification problem. In the few-shot setting, we
fine-tune the large language model using some labeled examples. We evaluate
several serialization methods including templates, table-to-text models, and
large language models. Despite its simplicity, we find that this technique
outperforms prior deep-learning-based tabular classification methods on several
benchmark datasets. In most cases, even zero-shot classification obtains
non-trivial performance, illustrating the method's ability to exploit prior
knowledge encoded in large language models. Unlike many deep learning methods
for tabular datasets, this approach is also competitive with strong traditional
baselines like gradient-boosted trees, especially in the very-few-shot setting.
- Abstract(参考訳): 大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
本稿では,表データ列を自然言語文字列にシリアライズした大規模言語モデルと,分類問題の簡潔な記述を推奨する。
いくつかのラベル付き例を使って、大きな言語モデルを微調整する。
テンプレートや表-テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
その単純さにもかかわらず、この手法はいくつかのベンチマークデータセットで以前のディープラーニングベースの表型分類手法よりも優れていることが判明した。
多くの場合、ゼロショット分類でさえ、大きな言語モデルで符号化された事前知識を利用する方法の能力を示す非自明な性能を得る。
テーブル型データセットのための多くのディープラーニング手法とは異なり、このアプローチは勾配ブーストツリーのような強力なベースライン、特にfew-shot設定と競合する。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Coarse-to-Fine Memory Matching for Joint Retrieval and Classification [0.7081604594416339]
共同検索と分類のための新しいエンドツーエンド言語モデルを提案する。
FEVERファクト検証データセットの標準ブラインドテストセットで評価する。
我々は、モデルを分析・制約するためのこの設定に、模範監査を拡張します。
論文 参考訳(メタデータ) (2020-11-29T05:06:03Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。