論文の概要: Tabular Transformers for Modeling Multivariate Time Series
- arxiv url: http://arxiv.org/abs/2011.01843v2
- Date: Thu, 11 Feb 2021 22:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:58:19.439338
- Title: Tabular Transformers for Modeling Multivariate Time Series
- Title(参考訳): 多変量時系列モデリングのためのタブラル変換器
- Authors: Inkit Padhi, Yair Schiff, Igor Melnyk, Mattia Rigotti, Youssef Mroueh,
Pierre Dognin, Jerret Ross, Ravi Nair, Erik Altman
- Abstract要約: タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
- 参考スコア(独自算出の注目度): 30.717890753132824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular datasets are ubiquitous in data science applications. Given their
importance, it seems natural to apply state-of-the-art deep learning algorithms
in order to fully unlock their potential. Here we propose neural network models
that represent tabular time series that can optionally leverage their
hierarchical structure. This results in two architectures for tabular time
series: one for learning representations that is analogous to BERT and can be
pre-trained end-to-end and used in downstream tasks, and one that is akin to
GPT and can be used for generation of realistic synthetic tabular sequences. We
demonstrate our models on two datasets: a synthetic credit card transaction
dataset, where the learned representations are used for fraud detection and
synthetic data generation, and on a real pollution dataset, where the learned
encodings are used to predict atmospheric pollutant concentrations. Code and
data are available at https://github.com/IBM/TabFormer.
- Abstract(参考訳): タブラルデータセットはデータサイエンスの応用においてユビキタスである。
その重要性を考えれば、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なことだ。
本稿では,その階層構造を任意に活用できる時系列表を表現するニューラルネットワークモデルを提案する。
これは、BERTに類似し、下流タスクで事前訓練して使用できる表現を学習するための2つのアーキテクチャと、GPTに類似し、リアルな合成表配列を生成するために使用できる1つのアーキテクチャである。
我々は,学習表現を不正検出や合成データ生成に使用する合成クレジットカードトランザクションデータセットと,学習したエンコーディングを大気汚染物質濃度の予測に使用する実汚染データセットという,2つのデータセットでモデルを実証した。
コードとデータはhttps://github.com/IBM/TabFormer.comで入手できる。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Why In-Context Learning Transformers are Tabular Data Classifiers [22.33649426762373]
ICL変換器は事前学習中に複雑な決定境界を生成できることを示す。
我々は、オリジナルのTabPFN合成データセットジェネレータと森林データセットジェネレータの両方で事前訓練されたICL変換器であるTabForestPFNを作成する。
論文 参考訳(メタデータ) (2024-05-22T07:13:55Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [5.102332247789348]
言語モデル構造に基づく新しいタイプのデータシンセサイザーであるTabulaを開発した。
本研究では,現在LLMをベースとした最先端アルゴリズムと比較して,Tabulaのトレーニング時間は平均46.2%削減されていることを示す。
また、合成データの質を保ちながら、トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。