論文の概要: Comparative Analysis of Transformers for Modeling Tabular Data: A
Casestudy using Industry Scale Dataset
- arxiv url: http://arxiv.org/abs/2311.14335v1
- Date: Fri, 24 Nov 2023 08:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:35:44.686101
- Title: Comparative Analysis of Transformers for Modeling Tabular Data: A
Casestudy using Industry Scale Dataset
- Title(参考訳): 表データモデリング用変圧器の比較分析:業界規模データセットを用いたケーススタディ
- Authors: Usneek Singh, Piyush Arora, Shamika Ganesan, Mohit Kumar, Siddhant
Kulkarni, Salil R. Joshi
- Abstract要約: この研究は、American Expressの合成データセットとデフォルト予測Kaggleデータセット(2022)の両方を用いて、様々なトランスフォーマーベースのモデルを広範囲に検証する。
本稿では、最適データ前処理に関する重要な知見を提示し、事前学習と直接教師付き学習法を比較し、分類的特徴と数値的特徴を管理するための戦略について議論し、計算資源と性能のトレードオフを強調する。
- 参考スコア(独自算出の注目度): 1.0758036046280266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We perform a comparative analysis of transformer-based models designed for
modeling tabular data, specifically on an industry-scale dataset. While earlier
studies demonstrated promising outcomes on smaller public or synthetic
datasets, the effectiveness did not extend to larger industry-scale datasets.
The challenges identified include handling high-dimensional data, the necessity
for efficient pre-processing of categorical and numerical features, and
addressing substantial computational requirements.
To overcome the identified challenges, the study conducts an extensive
examination of various transformer-based models using both synthetic datasets
and the default prediction Kaggle dataset (2022) from American Express. The
paper presents crucial insights into optimal data pre-processing, compares
pre-training and direct supervised learning methods, discusses strategies for
managing categorical and numerical features, and highlights trade-offs between
computational resources and performance. Focusing on temporal financial data
modeling, the research aims to facilitate the systematic development and
deployment of transformer-based models in real-world scenarios, emphasizing
scalability.
- Abstract(参考訳): 我々は、特に産業規模のデータセットに基づいて、表データモデリング用に設計されたトランスフォーマーモデルの比較分析を行う。
以前の研究では、より小さな公開データセットや合成データセットに対して有望な結果が示されたが、その効果はより大きな産業規模のデータセットにまで及ばなかった。
特定された課題は、高次元データの取り扱い、カテゴリー的および数値的特徴の効率的な前処理の必要性、実質的な計算要件への対処などである。
同定された課題を克服するために、american expressの合成データセットとデフォルト予測kaggleデータセット(2022年)の両方を使用して、様々なトランスフォーマーベースのモデルを広範囲に検討した。
本稿では,最適データ前処理に関する重要な知見を示し,事前学習法と直接教師あり学習法を比較し,分類的および数値的特徴を管理するための戦略を考察し,計算資源と性能のトレードオフを強調する。
時間的金融データモデリングに焦点を当てたこの研究は、リアルタイムシナリオにおけるトランスフォーマーベースのモデルの体系的な開発と展開を促進し、スケーラビリティを強調することを目的としている。
関連論文リスト
- Diffusion Models for Tabular Data Imputation and Synthetic Data Generation [3.667364190843767]
拡散モデルは、複雑なデータ分布をキャプチャできる強力な生成モデルとして登場した。
本稿では,3つの重要な拡張を導入した表データの拡散モデルを提案する。
コンディショニングアテンション機構は、条件と合成データの関係をキャプチャするモデルの能力を改善するように設計されている。
変換器層は条件(エンコーダ)や合成データ(デコーダ)内の相互作用をモデル化し、動的マスキングにより、欠落したデータ計算と合成データ生成タスクの両方を効率的に処理できる。
論文 参考訳(メタデータ) (2024-07-02T15:27:06Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples [13.053285552524052]
本稿では,最小限のサンプルから高忠実度データセットを生成する革新的な拡張合成モデルを提案する。
生成したデータセットの分類器をトレーニングし,より大規模でオリジナルなデータセットでトレーニングされたパフォーマンストリバーサを比較して,拡張的合成を検証する。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Best Practices and Lessons Learned on Synthetic Data for Language Models [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。