論文の概要: Benchmarking Multimodal AutoML for Tabular Data with Text Fields
- arxiv url: http://arxiv.org/abs/2111.02705v1
- Date: Thu, 4 Nov 2021 09:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:14:06.981920
- Title: Benchmarking Multimodal AutoML for Tabular Data with Text Fields
- Title(参考訳): テキストフィールド付きタブラリデータのためのマルチモーダルオートMLのベンチマーク
- Authors: Xingjian Shi, Jonas Mueller, Nick Erickson, Mu Li, Alexander J. Smola
- Abstract要約: テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
- 参考スコア(独自算出の注目度): 83.43249184357053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the use of automated supervised learning systems for data tables
that not only contain numeric/categorical columns, but one or more text fields
as well. Here we assemble 18 multimodal data tables that each contain some text
fields and stem from a real business application. Our publicly-available
benchmark enables researchers to comprehensively evaluate their own methods for
supervised learning with numeric, categorical, and text features. To ensure
that any single modeling strategy which performs well over all 18 datasets will
serve as a practical foundation for multimodal text/tabular AutoML, the diverse
datasets in our benchmark vary greatly in: sample size, problem types (a mix of
classification and regression tasks), number of features (with the number of
text columns ranging from 1 to 28 between datasets), as well as how the
predictive signal is decomposed between text vs. numeric/categorical features
(and predictive interactions thereof). Over this benchmark, we evaluate various
straightforward pipelines to model such data, including standard two-stage
approaches where NLP is used to featurize the text such that AutoML for tabular
data can then be applied. Compared with human data science teams, the fully
automated methodology that performed best on our benchmark (stack ensembling a
multimodal Transformer with various tree models) also manages to rank 1st place
when fit to the raw text/tabular data in two MachineHack prediction
competitions and 2nd place (out of 2380 teams) in Kaggle's Mercari Price
Suggestion Challenge.
- Abstract(参考訳): 我々は、数値・分類列だけでなく、1つ以上のテキストフィールドを含むデータテーブルに対する教師付き自動学習システムの利用を検討する。
ここでは、18のマルチモーダルデータテーブルを組み立て、それぞれがテキストフィールドを含み、実際のビジネスアプリケーションに由来する。
公開ベンチマークによって、研究者は数値、カテゴリ、テキスト機能で教師あり学習の方法を総合的に評価することができる。
To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof).
このベンチマークでは,NLPを用いてテキストをデファチュアライズする標準的な2段階アプローチなど,このようなデータをモデル化するためのさまざまな簡単なパイプラインを評価する。
ベンチマークでベストを尽くした完全に自動化された方法論(さまざまなツリーモデルを備えたマルチモーダルトランスフォーマーのスタックアンサンブル)もまた、KaggleのMercuri Price Suggestion Challengeで2つのMachineHack予測コンテストと2位(2380チーム中)で、生のテキスト/タブラルデータに適合する1位にランクインしています。
関連論文リスト
- Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Multi-modal Retrieval of Tables and Texts Using Tri-encoder Models [2.5621280373733604]
いくつかの質問はテキストだけでは答えられませんが、テーブルに格納された情報が必要です。
本稿では,テキスト,テーブル,質問を1つのベクトル空間に共同で符号化することで,質問に関連するテキストとテーブルを検索する手法を提案する。
新たに作成されたマルチモーダルデータセットをコミュニティにリリースし、トレーニングや評価に使用できるようにします。
論文 参考訳(メタデータ) (2021-08-09T14:02:00Z) - AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。
KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文 参考訳(メタデータ) (2020-03-13T23:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。