論文の概要: FCT-GAN: Enhancing Table Synthesis via Fourier Transform
- arxiv url: http://arxiv.org/abs/2210.06239v1
- Date: Wed, 12 Oct 2022 14:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:23:11.862816
- Title: FCT-GAN: Enhancing Table Synthesis via Fourier Transform
- Title(参考訳): FCT-GAN:フーリエ変換によるテーブル合成の強化
- Authors: Zilong Zhao, Robert Birke, Lydia Y. Chen
- Abstract要約: 合成データは、例えば、一般データ保護規則(General Data Protection Regulation)を遵守しながら、知識を共有する代替手段として出現する。
本稿では,トランスジェネレータと識別器を構築するために,特徴トークン化とフーリエネットワークを導入し,コラム間の局所的およびグローバルな依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 13.277332691308395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic tabular data emerges as an alternative for sharing knowledge while
adhering to restrictive data access regulations, e.g., European General Data
Protection Regulation (GDPR). Mainstream state-of-the-art tabular data
synthesizers draw methodologies from Generative Adversarial Networks (GANs),
which are composed of a generator and a discriminator. While convolution neural
networks are shown to be a better architecture than fully connected networks
for tabular data synthesizing, two key properties of tabular data are
overlooked: (i) the global correlation across columns, and (ii) invariant
synthesizing to column permutations of input data. To address the above
problems, we propose a Fourier conditional tabular generative adversarial
network (FCT-GAN). We introduce feature tokenization and Fourier networks to
construct a transformer-style generator and discriminator, and capture both
local and global dependencies across columns. The tokenizer captures local
spatial features and transforms original data into tokens. Fourier networks
transform tokens to frequency domains and element-wisely multiply a learnable
filter. Extensive evaluation on benchmarks and real-world data shows that
FCT-GAN can synthesize tabular data with high machine learning utility (up to
27.8% better than state-of-the-art baselines) and high statistical similarity
to the original data (up to 26.5% better), while maintaining the global
correlation across columns, especially on high dimensional dataset.
- Abstract(参考訳): 合成表データは知識の共有の代替として出現し、欧州一般データ保護規則(GDPR)などの制限的なデータアクセス規則に準拠している。
主流の最先端の表型データシンセサイザーは、ジェネレータと判別器からなる生成型逆ネットワーク(gans)から方法論を導出する。
畳み込みニューラルネットワークは、表データ合成のための完全接続ネットワークよりも優れたアーキテクチャであることが示されているが、表データの2つの重要な特性を見落としている。
(i)柱間の大域的相関、
(ii)入力データの列順列に合成する不変量
上記の問題に対処するため,Fourier条件付き表層生成対向ネットワーク(FCT-GAN)を提案する。
特徴トークン化とフーリエネットワークを導入してトランスフォーマティブ型生成器と判別器を構築し,コラム間の局所的およびグローバル的依存関係をキャプチャする。
トークン化器は局所的な空間的特徴をキャプチャし、元のデータをトークンに変換する。
フーリエネットワークはトークンを周波数領域に変換し、要素ごとに学習可能なフィルタを乗算する。
ベンチマークと実世界のデータに対する広範囲な評価は、FCT-GANが高い機械学習ユーティリティ(最先端のベースラインよりも最大27.8%良い)と元のデータと高い統計的類似性(最大26.5%良い)で表層データを合成できることを示している。
関連論文リスト
- Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。
AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。
提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文 参考訳(メタデータ) (2022-11-17T01:14:19Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Fed-TGAN: Federated Learning Framework for Synthesizing Tabular Data [8.014848609114154]
我々は,タブラルガンのための最初のフェデレート学習フレームワークであるFed-TGANを提案する。
非同一人物の複雑なGANを効果的に学習するために、Fed-TGANは2つの新しい特徴を設計する。
その結果,Fed-TGANはエポックあたりのトレーニング時間を最大200%まで加速することがわかった。
論文 参考訳(メタデータ) (2021-08-18T01:47:36Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z) - Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文 参考訳(メタデータ) (2020-11-03T16:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。