論文の概要: Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset
- arxiv url: http://arxiv.org/abs/2412.12864v2
- Date: Wed, 23 Apr 2025 11:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 20:25:50.723867
- Title: Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset
- Title(参考訳): 混合可変タブラルデータセットを用いた半教師付き学習のための測地流カーネル
- Authors: Yoontae Hwang, Yongjae Lee,
- Abstract要約: GFTabは、Mixed-Variable Tabularデータセットフレームワークの半教師付き学習である。
GFTabには3つの重要な革新がある: 1) 連続変数と分類変数の異なる性質に合わせた変数固有の汚職法、2) 腐敗した入力間の幾何学的変化を捉える測地学的フローカーネルに基づく類似度尺度、3) 利用可能なラベル付きデータから階層的関係を利用する木に基づく埋め込み。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
- 参考スコア(独自算出の注目度): 31.23513370504603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data poses unique challenges due to its heterogeneous nature, combining both continuous and categorical variables. Existing approaches often struggle to effectively capture the underlying structure and relationships within such data. We propose GFTab (Geodesic Flow Kernels for Semi- Supervised Learning on Mixed-Variable Tabular Dataset), a semi-supervised framework specifically designed for tabular datasets. GFTab incorporates three key innovations: 1) Variable-specific corruption methods tailored to the distinct properties of continuous and categorical variables, 2) A Geodesic flow kernel based similarity measure to capture geometric changes between corrupted inputs, and 3) Tree-based embedding to leverage hierarchical relationships from available labeled data. To rigorously evaluate GFTab, we curate a comprehensive set of 21 tabular datasets spanning various domains, sizes, and variable compositions. Our experimental results show that GFTab outperforms existing ML/DL models across many of these datasets, particularly in settings with limited labeled data.
- Abstract(参考訳): タブラルデータは、連続変数とカテゴリー変数の両方を組み合わせた異質な性質のため、ユニークな課題を提起する。
既存のアプローチはしばしば、そのようなデータの中で基盤となる構造と関係を効果的に捉えるのに苦労する。
GFTab(Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset)を提案する。
GFTabは3つの重要なイノベーションを取り入れている。
1)連続変数と分類変数の異なる性質に適合した変数固有の汚職法。
2)ジオデシックフローカーネルによる入力の幾何変化を捉える類似度尺度
3)木をベースとした埋め込みは、利用可能なラベル付きデータから階層的関係を活用する。
GFTabを厳格に評価するために、さまざまなドメイン、サイズ、および変数構成にまたがる21のグラフデータセットの包括的なセットをキュレートする。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
関連論文リスト
- LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。
本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。