Fugu-MT 論文翻訳(概要): Tabular data generation with tensor contraction layers and transformers

論文の概要: Tabular data generation with tensor contraction layers and transformers

arxiv url: http://arxiv.org/abs/2412.05390v1
Date: Fri, 06 Dec 2024 19:34:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.824603
Title: Tabular data generation with tensor contraction layers and transformers
Title（参考訳）: テンソル収縮層と変圧器を用いたタブラルデータ生成
Authors: Aníbal Silva, André Restivo, Moisés Santos, Carlos Soares,
Abstract要約: テンソル縮退層と変圧器を用いて,データ生成に埋め込み表現を用いることの可能性を検討する。 OpenML CC18スイートの複数のデータセットを対象に実施した実証的研究では,密度推定モデルと機械学習効率指標を比較した。この結果から得られた主な特徴は、テンソル収縮層の助けを借りて埋め込み表現を利用することで密度推定の指標が向上するが、機械学習効率の観点からは競合性能は維持できるということである。
参考スコア（独自算出の注目度）: 0.35998666903987897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative modeling for tabular data has recently gained significant attention in the Deep Learning domain. Its objective is to estimate the underlying distribution of the data. However, estimating the underlying distribution of tabular data has its unique challenges. Specifically, this data modality is composed of mixed types of features, making it a non-trivial task for a model to learn intra-relationships between them. One approach to address mixture is to embed each feature into a continuous matrix via tokenization, while a solution to capture intra-relationships between variables is via the transformer architecture. In this work, we empirically investigate the potential of using embedding representations on tabular data generation, utilizing tensor contraction layers and transformers to model the underlying distribution of tabular data within Variational Autoencoders. Specifically, we compare four architectural approaches: a baseline VAE model, two variants that focus on tensor contraction layers and transformers respectively, and a hybrid model that integrates both techniques. Our empirical study, conducted across multiple datasets from the OpenML CC18 suite, compares models over density estimation and Machine Learning efficiency metrics. The main takeaway from our results is that leveraging embedding representations with the help of tensor contraction layers improves density estimation metrics, albeit maintaining competitive performance in terms of machine learning efficiency.
Abstract（参考訳）: 表形式のデータの生成モデリングは、最近Deep Learningドメインで注目されている。その目的は、データの基盤となる分布を推定することである。しかし、表形式のデータの分布を推定することは、そのユニークな課題である。具体的には、このデータモダリティは、混合タイプの特徴で構成されており、モデルがそれらの間の関係を学習するための非自明なタスクである。混合に対処する1つのアプローチは、各機能をトークン化を通じて連続行列に埋め込み、変数間の関係をキャプチャする解決策はトランスフォーマーアーキテクチャである。本研究では, テンソル縮退層と変圧器を用いて, 変分オートエンコーダ内の表データ分布をモデル化し, 表データ生成に埋め込み表現を用いることの可能性について実験的に検討する。具体的には、ベースラインのVAEモデルと、テンソル収縮層とトランスフォーマーに焦点を当てた2つの変種と、両方のテクニックを統合するハイブリッドモデルを比較した。 OpenML CC18スイートの複数のデータセットを対象に実施した実証的研究では,密度推定モデルと機械学習効率指標を比較した。この結果から得られた主な特徴は、テンソル収縮層の助けを借りて埋め込み表現を利用することで密度推定の指標が向上するが、機械学習効率の観点からは競合性能は維持できるということである。

関連論文リスト

Mixture of Attention Yields Accurate Results for Tabular Data [21.410818837489973]
本稿では,エンコーダ・デコーダ・トランスを用いたMAYAを提案する。エンコーダでは、複数の並列注意枝を構成するMOA(Mixture of Attention)を設計する。我々は、より堅牢な表現を生成するために、動的一貫性重み制約を伴う協調学習を採用する。
論文参考訳（メタデータ） (2025-02-18T03:43:42Z)
Integrating Random Effects in Variational Autoencoders for Dimensionality Reduction of Correlated Data [9.990687944474738]
LMMVAEは、従来のVAEラテントモデルを固定部品とランダム部品に分離する新しいモデルである。その結果, 正方形復元誤差と負の可能性損失は, 未確認データに対して有意に改善した。
論文参考訳（メタデータ） (2024-12-22T07:20:17Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文参考訳（メタデータ） (2023-10-25T05:24:23Z)
Improving Out-of-Distribution Robustness of Classifiers via Generative Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文参考訳（メタデータ） (2023-07-23T03:53:53Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-04-03T13:13:19Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
A Graphical Model for Fusing Diverse Microbiome Data [2.385985842958366]
本稿では,このような数値データを共同でモデル化するフレキシブルな多項ガウス生成モデルを提案する。本稿では、潜在変数とモデルのパラメータを推定するための、計算にスケーラブルな変動予測-最大化(EM)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-21T17:54:39Z)
Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文参考訳（メタデータ） (2021-08-27T18:10:31Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。