Fugu-MT 論文翻訳(概要): Benchmarking Multimodal AutoML for Tabular Data with Text Fields

論文の概要: Benchmarking Multimodal AutoML for Tabular Data with Text Fields

arxiv url: http://arxiv.org/abs/2111.02705v1
Date: Thu, 4 Nov 2021 09:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-05 12:14:06.981920
Title: Benchmarking Multimodal AutoML for Tabular Data with Text Fields
Title（参考訳）: テキストフィールド付きタブラリデータのためのマルチモーダルオートMLのベンチマーク
Authors: Xingjian Shi, Jonas Mueller, Nick Erickson, Mu Li, Alexander J. Smola
Abstract要約: テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
参考スコア（独自算出の注目度）: 83.43249184357053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the use of automated supervised learning systems for data tables that not only contain numeric/categorical columns, but one or more text fields as well. Here we assemble 18 multimodal data tables that each contain some text fields and stem from a real business application. Our publicly-available benchmark enables researchers to comprehensively evaluate their own methods for supervised learning with numeric, categorical, and text features. To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof). Over this benchmark, we evaluate various straightforward pipelines to model such data, including standard two-stage approaches where NLP is used to featurize the text such that AutoML for tabular data can then be applied. Compared with human data science teams, the fully automated methodology that performed best on our benchmark (stack ensembling a multimodal Transformer with various tree models) also manages to rank 1st place when fit to the raw text/tabular data in two MachineHack prediction competitions and 2nd place (out of 2380 teams) in Kaggle's Mercari Price Suggestion Challenge.
Abstract（参考訳）: 我々は、数値・分類列だけでなく、1つ以上のテキストフィールドを含むデータテーブルに対する教師付き自動学習システムの利用を検討する。ここでは、18のマルチモーダルデータテーブルを組み立て、それぞれがテキストフィールドを含み、実際のビジネスアプリケーションに由来する。公開ベンチマークによって、研究者は数値、カテゴリ、テキスト機能で教師あり学習の方法を総合的に評価することができる。 To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof). このベンチマークでは,NLPを用いてテキストをデファチュアライズする標準的な2段階アプローチなど,このようなデータをモデル化するためのさまざまな簡単なパイプラインを評価する。ベンチマークでベストを尽くした完全に自動化された方法論(さまざまなツリーモデルを備えたマルチモーダルトランスフォーマーのスタックアンサンブル)もまた、KaggleのMercuri Price Suggestion Challengeで2つのMachineHack予測コンテストと2位(2380チーム中)で、生のテキスト/タブラルデータに適合する1位にランクインしています。

関連論文リスト

StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文参考訳（メタデータ） (2025-07-28T21:20:44Z)
Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data [9.325441307607225]
本稿では,自動機械学習(AutoML)のベストプラクティスについて検討する。実世界の様々なアプリケーションから22のマルチモーダルデータセットからなるベンチマークをキュレートする。大規模な実験と分析を通じて、有効な戦略のコレクションを蒸留し、それらを統一されたパイプラインに統合する。
論文参考訳（メタデータ） (2024-12-19T20:52:10Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文参考訳（メタデータ） (2023-11-06T13:11:02Z)
Text2Topic: Multi-Label Text Classification System for Efficient Topic Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。 Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文参考訳（メタデータ） (2023-10-23T11:33:24Z)
A multi-model-based deep learning framework for short text multiclass classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文参考訳（メタデータ） (2022-06-24T00:51:02Z)
Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。 LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文参考訳（メタデータ） (2022-01-28T21:38:56Z)
Multi-modal Retrieval of Tables and Texts Using Tri-encoder Models [2.5621280373733604]
いくつかの質問はテキストだけでは答えられませんが、テーブルに格納された情報が必要です。本稿では,テキスト,テーブル,質問を1つのベクトル空間に共同で符号化することで,質問に関連するテキストとテーブルを検索する手法を提案する。新たに作成されたマルチモーダルデータセットをコミュニティにリリースし、トレーニングや評価に使用できるようにします。
論文参考訳（メタデータ） (2021-08-09T14:02:00Z)
AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。 KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文参考訳（メタデータ） (2020-03-13T23:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。