論文の概要: Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces
- arxiv url: http://arxiv.org/abs/2311.10051v1
- Date: Thu, 16 Nov 2023 17:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:29:36.162475
- Title: Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces
- Title(参考訳): 不均一特徴空間におけるタブラルフショット一般化
- Authors: Max Zhu, Katarzyna Kobalczyk, Andrija Petrovic, Mladen Nikolic,
Mihaela van der Schaar, Boris Delibasic, Petro Lio
- Abstract要約: 異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
- 参考スコア(独自算出の注目度): 43.67453625260335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the prevalence of tabular datasets, few-shot learning remains
under-explored within this domain. Existing few-shot methods are not directly
applicable to tabular datasets due to varying column relationships, meanings,
and permutational invariance. To address these challenges, we propose FLAT-a
novel approach to tabular few-shot learning, encompassing knowledge sharing
between datasets with heterogeneous feature spaces. Utilizing an encoder
inspired by Dataset2Vec, FLAT learns low-dimensional embeddings of datasets and
their individual columns, which facilitate knowledge transfer and
generalization to previously unseen datasets. A decoder network parametrizes
the predictive target network, implemented as a Graph Attention Network, to
accommodate the heterogeneous nature of tabular datasets. Experiments on a
diverse collection of 118 UCI datasets demonstrate FLAT's successful
generalization to new tabular datasets and a considerable improvement over the
baselines.
- Abstract(参考訳): 表型データセットの普及にもかかわらず、このドメイン内では、わずかなショット学習が未検討のままである。
既存の少数ショット法は、列関係、意味、置換不変性によって表のデータセットに直接適用できない。
これらの課題に対処するために,不均一な特徴空間を持つデータセット間の知識共有を包含するFLATを提案する。
Dataset2Vecにインスパイアされたエンコーダを利用することで、FLATはデータセットと個々の列の低次元の埋め込みを学習する。
デコーダネットワークは、グラフ注目ネットワークとして実装された予測対象ネットワークをパラメータ化し、表型データセットの異種性に対応する。
118のuciデータセットの多様なコレクションに関する実験は、新しい表型データセットへのflatの一般化の成功と、ベースラインに対する大幅な改善を示している。
関連論文リスト
- Geodesic Flow Kernels for Semi-Supervised Learning on Mixed-Variable Tabular Dataset [31.23513370504603]
GFTabは、Mixed-Variable Tabularデータセットフレームワークの半教師付き学習である。
GFTabには3つの重要な革新がある: 1) 連続変数と分類変数の異なる性質に合わせた変数固有の汚職法、2) 腐敗した入力間の幾何学的変化を捉える測地学的フローカーネルに基づく類似度尺度、3) 利用可能なラベル付きデータから階層的関係を利用する木に基づく埋め込み。
我々の実験結果によると、GFTabは、多くのデータセット、特にラベル付きデータに制限された設定において、既存のML/DLモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-17T12:47:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data [35.61663559675556]
クロスデータセット事前トレーニングは、様々な分野で顕著な成功を収めている。
本研究では,多目的な下流表予測タスクのためのクロステーブル事前学習型トランスであるXTFormerを提案する。
我々の手法は、XTFormerを事前訓練して、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
論文 参考訳(メタデータ) (2024-06-01T03:24:31Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。