Fugu-MT 論文翻訳(概要): TabMT: Generating tabular data with masked transformers

論文の概要: TabMT: Generating tabular data with masked transformers

arxiv url: http://arxiv.org/abs/2312.06089v1
Date: Mon, 11 Dec 2023 03:28:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 17:03:34.048155
Title: TabMT: Generating tabular data with masked transformers
Title（参考訳）: tabmt:マスクトランスフォーマーによる表データ生成
Authors: Manbir S Gulati, Paul F Roysdon
Abstract要約: Masked Transformerは生成モデルや分類器として驚くほど効果的です。この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive and Masked Transformers are incredibly effective as generative models and classifiers. While these models are most prevalent in NLP, they also exhibit strong performance in other domains, such as vision. This work contributes to the exploration of transformer-based models in synthetic data generation for diverse application domains. In this paper, we present TabMT, a novel Masked Transformer design for generating synthetic tabular data. TabMT effectively addresses the unique challenges posed by heterogeneous data fields and is natively able to handle missing data. Our design leverages improved masking techniques to allow for generation and demonstrates state-of-the-art performance from extremely small to extremely large tabular datasets. We evaluate TabMT for privacy-focused applications and find that it is able to generate high quality data with superior privacy tradeoffs.
Abstract（参考訳）: 自己回帰トランスフォーマーやマスクトランスフォーマーは生成モデルや分類器として非常に効果的である。これらのモデルはNLPでもっとも一般的であるが、視覚など他の領域でも高い性能を示す。この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。本稿では,合成表データを生成するための新しいMasked Transformer設計であるTabMTを提案する。 tabmtは、異種データフィールドによって生じるユニークな課題を効果的に解決し、欠落したデータをネイティブに処理できる。我々の設計は、改良されたマスキング技術を活用して生成を可能にし、極小から極大の表状データセットの最先端のパフォーマンスを実証する。プライバシを重視したアプリケーションに対してTabMTを評価し,優れたプライバシトレードオフで高品質なデータを生成することができることを確認した。

関連論文リスト

LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文参考訳（メタデータ） (2024-10-15T20:08:08Z)
TAEGAN: Generating Synthetic Tabular Data For Data Augmentation [13.612237747184363]
Tabular Auto-Encoder Generative Adversarial Network (TAEGAN)は、高品質な表データを生成するための改良されたGANベースのフレームワークである。 TAEGANは、マスク付きオートエンコーダをジェネレータとして採用し、自己監督型事前学習のパワーを初めて導入した。
論文参考訳（メタデータ） (2024-10-02T18:33:06Z)
DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文参考訳（メタデータ） (2024-01-26T23:12:41Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Exploring the Benefits of Differentially Private Pre-training and Parameter-Efficient Fine-tuning for Table Transformers [56.00476706550681]
Table Transformer(TabTransformer)は最先端のニューラルネットワークモデルであり、差分プライバシ(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。本稿では,これら2つの側面を組み合わせ,伝達学習のシナリオで組み合わせることのメリットについて考察する。
論文参考訳（メタデータ） (2023-09-12T19:08:26Z)
Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。これにより、結果データの品質とプライバシの間にトレードオフが生じます。我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文参考訳（メタデータ） (2023-08-28T16:35:43Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文参考訳（メタデータ） (2022-10-12T15:03:28Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。