論文の概要: Vectorizing string entries for data processing on tables: when are
larger language models better?
- arxiv url: http://arxiv.org/abs/2312.09634v1
- Date: Fri, 15 Dec 2023 09:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:25:06.673024
- Title: Vectorizing string entries for data processing on tables: when are
larger language models better?
- Title(参考訳): テーブル上のデータ処理のための文字列エントリのベクトル化: 大きな言語モデルはいつより良くなりますか?
- Authors: L\'eo Grinsztajn (SODA, MLIA, ISIR), Edouard Oyallon (MLIA, CNRS,
ISIR, SU), Myung Jun Kim (SODA), Ga\"el Varoquaux (SODA)
- Abstract要約: テーブル上の14の分析課題における言語モデルの利点について検討する。
より大きな言語モデルはより良い性能を示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。
- 参考スコア(独自算出の注目度): 1.0840985826142429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are increasingly efficient data processing pipelines that work on
vectors of numbers, for instance most machine learning models, or vector
databases for fast similarity search. These require converting the data to
numbers. While this conversion is easy for simple numerical and categorical
entries, databases are strife with text entries, such as names or descriptions.
In the age of large language models, what's the best strategies to vectorize
tables entries, baring in mind that larger models entail more operational
complexity? We study the benefits of language models in 14 analytical tasks on
tables while varying the training size, as well as for a fuzzy join benchmark.
We introduce a simple characterization of a column that reveals two settings:
1) a dirty categories setting, where strings share much similarities across
entries, and conversely 2) a diverse entries setting. For dirty categories,
pretrained language models bring little-to-no benefit compared to simpler
string models. For diverse entries, we show that larger language models improve
data processing. For these we investigate the complexity-performance tradeoffs
and show that they reflect those of classic text embedding: larger models tend
to perform better, but it is useful to fine tune them for embedding purposes.
- Abstract(参考訳): 例えば、ほとんどの機械学習モデルや、高速な類似検索のためのベクトルデータベースなど、数値のベクトルを扱う効率的なデータ処理パイプラインが増えている。
これらはデータを数値に変換する必要がある。
この変換は単純な数値や分類のエントリでは容易であるが、データベースには名前や記述などのテキストエントリが混在している。
大きな言語モデルの時代において、テーブルエントリをベクトル化する最良の戦略は何でしょうか?
本研究は,14のテーブル上の解析タスクにおける言語モデルの利点と,トレーニングサイズの変化,ファジィ結合ベンチマークについて検討する。
以下の2つの設定を示す列の簡単なキャラクタリゼーションを紹介します。
1) 文字列がエントリ間で多くの類似点を共有し、逆に共有する汚いカテゴリの設定
2)多様な項目の設定。
汚いカテゴリでは、事前訓練された言語モデルは単純な文字列モデルに比べてほとんど恩恵を受けない。
多様なエントリに対して、より大きな言語モデルがデータ処理を改善することを示す。
これらのために、複雑性と性能のトレードオフを調査し、それらが古典的なテキスト埋め込みのトレードオフを反映していることを示す: より大きなモデルはより良いパフォーマンスを示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。
関連論文リスト
- CARTE: pretraining and transfer for tabular learning [0.6267574471145216]
本稿では,列のスキーママッチングやエントリのエンティティマッチングを必要としないニューラルネットワークを提案する。
アーキテクチャ - CARTE for Context Aware Representation of Table Entries - はグラフ表現を使って異なる列のテーブルを処理する。
広範なベンチマークでは、CARTEが学習を容易にし、最高のツリーベースモデルを含む一連のベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - Learning Mutually Informed Representations for Characters and Subwords [29.43428615637264]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
本稿では,テキスト分類,エンティティ認識,POSタグ付けタスクについて評価する。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Assessment of Massively Multilingual Sentiment Classifiers [7.852069123677559]
我々は、感情分析データセットの最大で統一された多言語コレクションを提示する。
私たちはこれらを使用して、27言語で11のモデルと80の高品質な感情データセット(342の生データセットのうち)を評価します。
論文 参考訳(メタデータ) (2022-04-11T08:22:05Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。