論文の概要: Comparative Analysis of Transformers for Modeling Tabular Data: A
Casestudy using Industry Scale Dataset
- arxiv url: http://arxiv.org/abs/2311.14335v1
- Date: Fri, 24 Nov 2023 08:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:35:44.686101
- Title: Comparative Analysis of Transformers for Modeling Tabular Data: A
Casestudy using Industry Scale Dataset
- Title(参考訳): 表データモデリング用変圧器の比較分析:業界規模データセットを用いたケーススタディ
- Authors: Usneek Singh, Piyush Arora, Shamika Ganesan, Mohit Kumar, Siddhant
Kulkarni, Salil R. Joshi
- Abstract要約: この研究は、American Expressの合成データセットとデフォルト予測Kaggleデータセット(2022)の両方を用いて、様々なトランスフォーマーベースのモデルを広範囲に検証する。
本稿では、最適データ前処理に関する重要な知見を提示し、事前学習と直接教師付き学習法を比較し、分類的特徴と数値的特徴を管理するための戦略について議論し、計算資源と性能のトレードオフを強調する。
- 参考スコア(独自算出の注目度): 1.0758036046280266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We perform a comparative analysis of transformer-based models designed for
modeling tabular data, specifically on an industry-scale dataset. While earlier
studies demonstrated promising outcomes on smaller public or synthetic
datasets, the effectiveness did not extend to larger industry-scale datasets.
The challenges identified include handling high-dimensional data, the necessity
for efficient pre-processing of categorical and numerical features, and
addressing substantial computational requirements.
To overcome the identified challenges, the study conducts an extensive
examination of various transformer-based models using both synthetic datasets
and the default prediction Kaggle dataset (2022) from American Express. The
paper presents crucial insights into optimal data pre-processing, compares
pre-training and direct supervised learning methods, discusses strategies for
managing categorical and numerical features, and highlights trade-offs between
computational resources and performance. Focusing on temporal financial data
modeling, the research aims to facilitate the systematic development and
deployment of transformer-based models in real-world scenarios, emphasizing
scalability.
- Abstract(参考訳): 我々は、特に産業規模のデータセットに基づいて、表データモデリング用に設計されたトランスフォーマーモデルの比較分析を行う。
以前の研究では、より小さな公開データセットや合成データセットに対して有望な結果が示されたが、その効果はより大きな産業規模のデータセットにまで及ばなかった。
特定された課題は、高次元データの取り扱い、カテゴリー的および数値的特徴の効率的な前処理の必要性、実質的な計算要件への対処などである。
同定された課題を克服するために、american expressの合成データセットとデフォルト予測kaggleデータセット(2022年)の両方を使用して、様々なトランスフォーマーベースのモデルを広範囲に検討した。
本稿では,最適データ前処理に関する重要な知見を示し,事前学習法と直接教師あり学習法を比較し,分類的および数値的特徴を管理するための戦略を考察し,計算資源と性能のトレードオフを強調する。
時間的金融データモデリングに焦点を当てたこの研究は、リアルタイムシナリオにおけるトランスフォーマーベースのモデルの体系的な開発と展開を促進し、スケーラビリティを強調することを目的としている。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。
モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。
提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文 参考訳(メタデータ) (2020-02-11T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。