論文の概要: Vectorizing string entries for data processing on tables: when are
larger language models better?
- arxiv url: http://arxiv.org/abs/2312.09634v1
- Date: Fri, 15 Dec 2023 09:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:25:06.673024
- Title: Vectorizing string entries for data processing on tables: when are
larger language models better?
- Title(参考訳): テーブル上のデータ処理のための文字列エントリのベクトル化: 大きな言語モデルはいつより良くなりますか?
- Authors: L\'eo Grinsztajn (SODA, MLIA, ISIR), Edouard Oyallon (MLIA, CNRS,
ISIR, SU), Myung Jun Kim (SODA), Ga\"el Varoquaux (SODA)
- Abstract要約: テーブル上の14の分析課題における言語モデルの利点について検討する。
より大きな言語モデルはより良い性能を示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。
- 参考スコア(独自算出の注目度): 1.0840985826142429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are increasingly efficient data processing pipelines that work on
vectors of numbers, for instance most machine learning models, or vector
databases for fast similarity search. These require converting the data to
numbers. While this conversion is easy for simple numerical and categorical
entries, databases are strife with text entries, such as names or descriptions.
In the age of large language models, what's the best strategies to vectorize
tables entries, baring in mind that larger models entail more operational
complexity? We study the benefits of language models in 14 analytical tasks on
tables while varying the training size, as well as for a fuzzy join benchmark.
We introduce a simple characterization of a column that reveals two settings:
1) a dirty categories setting, where strings share much similarities across
entries, and conversely 2) a diverse entries setting. For dirty categories,
pretrained language models bring little-to-no benefit compared to simpler
string models. For diverse entries, we show that larger language models improve
data processing. For these we investigate the complexity-performance tradeoffs
and show that they reflect those of classic text embedding: larger models tend
to perform better, but it is useful to fine tune them for embedding purposes.
- Abstract(参考訳): 例えば、ほとんどの機械学習モデルや、高速な類似検索のためのベクトルデータベースなど、数値のベクトルを扱う効率的なデータ処理パイプラインが増えている。
これらはデータを数値に変換する必要がある。
この変換は単純な数値や分類のエントリでは容易であるが、データベースには名前や記述などのテキストエントリが混在している。
大きな言語モデルの時代において、テーブルエントリをベクトル化する最良の戦略は何でしょうか?
本研究は,14のテーブル上の解析タスクにおける言語モデルの利点と,トレーニングサイズの変化,ファジィ結合ベンチマークについて検討する。
以下の2つの設定を示す列の簡単なキャラクタリゼーションを紹介します。
1) 文字列がエントリ間で多くの類似点を共有し、逆に共有する汚いカテゴリの設定
2)多様な項目の設定。
汚いカテゴリでは、事前訓練された言語モデルは単純な文字列モデルに比べてほとんど恩恵を受けない。
多様なエントリに対して、より大きな言語モデルがデータ処理を改善することを示す。
これらのために、複雑性と性能のトレードオフを調査し、それらが古典的なテキスト埋め込みのトレードオフを反映していることを示す: より大きなモデルはより良いパフォーマンスを示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Assessment of Massively Multilingual Sentiment Classifiers [7.852069123677559]
我々は、感情分析データセットの最大で統一された多言語コレクションを提示する。
私たちはこれらを使用して、27言語で11のモデルと80の高品質な感情データセット(342の生データセットのうち)を評価します。
論文 参考訳(メタデータ) (2022-04-11T08:22:05Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。