論文の概要: Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset
- arxiv url: http://arxiv.org/abs/2412.12864v1
- Date: Tue, 17 Dec 2024 12:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:51.695045
- Title: Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset
- Title(参考訳): 混合可変タブラルデータセットを用いた半教師付き学習のための測地流カーネル
- Authors: Yoontae Hwang, Yongjae Lee,
- Abstract要約: GFTabは、Mixed-Variable Tabularデータセットフレームワークの半教師付き学習である。
GFTabには3つの重要な革新がある: 1) 連続変数と分類変数の異なる性質に合わせた変数固有の汚職法、2) 腐敗した入力間の幾何学的変化を捉える測地学的フローカーネルに基づく類似度尺度、3) 利用可能なラベル付きデータから階層的関係を利用する木に基づく埋め込み。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
- 参考スコア(独自算出の注目度): 31.23513370504603
- License:
- Abstract: Tabular data poses unique challenges due to its heterogeneous nature, combining both continuous and categorical variables. Existing approaches often struggle to effectively capture the underlying structure and relationships within such data. We propose GFTab (Geodesic Flow Kernels for Semi- Supervised Learning on Mixed-Variable Tabular Dataset), a semi-supervised framework specifically designed for tabular datasets. GFTab incorporates three key innovations: 1) Variable-specific corruption methods tailored to the distinct properties of continuous and categorical variables, 2) A Geodesic flow kernel based similarity measure to capture geometric changes between corrupted inputs, and 3) Tree-based embedding to leverage hierarchical relationships from available labeled data. To rigorously evaluate GFTab, we curate a comprehensive set of 21 tabular datasets spanning various domains, sizes, and variable compositions. Our experimental results show that GFTab outperforms existing ML/DL models across many of these datasets, particularly in settings with limited labeled data.
- Abstract(参考訳): タブラルデータは、連続変数とカテゴリー変数の両方を組み合わせた異質な性質のため、ユニークな課題を提起する。
既存のアプローチはしばしば、そのようなデータの中で基盤となる構造と関係を効果的に捉えるのに苦労する。
GFTab(Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset)を提案する。
GFTabは3つの重要なイノベーションを取り入れている。
1)連続変数と分類変数の異なる性質に適合した変数固有の汚職法。
2)ジオデシックフローカーネルによる入力の幾何変化を捉える類似度尺度
3)木をベースとした埋め込みは、利用可能なラベル付きデータから階層的関係を活用する。
GFTabを厳格に評価するために、さまざまなドメイン、サイズ、および変数構成にまたがる21のグラフデータセットの包括的なセットをキュレートする。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
関連論文リスト
- SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Decoupled Subgraph Federated Learning [57.588938805581044]
複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。
我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。
半教師付きノード分類のための6つのデータセットを用いて実験結果を用いてFedStructの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:47:23Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。