論文の概要: Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation
- arxiv url: http://arxiv.org/abs/2404.17489v1
- Date: Fri, 26 Apr 2024 15:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:45:10.460181
- Title: Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation
- Title(参考訳): クラス定義と特徴相関に基づく拡張によるタブラルデータコントラスト学習
- Authors: Wei Cui, Rasa Hosseinzadeh, Junwei Ma, Tongzi Wu, Yi Sui, Keyvan Golestan,
- Abstract要約: コントラスト学習(Contrastive Learning)は、最初に元のデータの類似したビューを作成し、次にデータとその対応するビューを埋め込み空間に近接させるモデル事前学習技術である。
本稿では,この拡張手法の簡易かつ強力な改善法を提案する。
私たちのコードはhttps://github.com/willtop/Tabular-Class-Conditioned-SSLで利用可能です。
- 参考スコア(独自算出の注目度): 9.593419261003692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive learning is a model pre-training technique by first creating similar views of the original data, and then encouraging the data and its corresponding views to be close in the embedding space. Contrastive learning has witnessed success in image and natural language data, thanks to the domain-specific augmentation techniques that are both intuitive and effective. Nonetheless, in tabular domain, the predominant augmentation technique for creating views is through corrupting tabular entries via swapping values, which is not as sound or effective. We propose a simple yet powerful improvement to this augmentation technique: corrupting tabular data conditioned on class identity. Specifically, when corrupting a specific tabular entry from an anchor row, instead of randomly sampling a value in the same feature column from the entire table uniformly, we only sample from rows that are identified to be within the same class as the anchor row. We assume the semi-supervised learning setting, and adopt the pseudo labeling technique for obtaining class identities over all table rows. We also explore the novel idea of selecting features to be corrupted based on feature correlation structures. Extensive experiments show that the proposed approach consistently outperforms the conventional corruption method for tabular data classification tasks. Our code is available at https://github.com/willtop/Tabular-Class-Conditioned-SSL.
- Abstract(参考訳): コントラスト学習(Contrastive Learning)は、最初に元のデータの類似したビューを作成し、次にデータとその対応するビューを埋め込み空間に近接させるモデル事前学習技術である。
対照的な学習は、直感的で効果的なドメイン固有の拡張技術のおかげで、画像と自然言語のデータで成功している。
それにもかかわらず、表領域では、ビューを作成するための主要な拡張テクニックは、値のスワップによって表領域のエントリを破損させることである。
本稿では,この拡張手法の簡易かつ強力な改善法を提案する。
具体的には、テーブル全体から同じ特徴列の値をランダムにサンプリングする代わりに、アンカー行から特定の表のエントリを破損させる場合、アンカー行と同じクラスに属すると認識される行からのみサンプリングする。
半教師付き学習環境を仮定し,すべてのテーブル列上のクラスIDを取得するための擬似ラベル手法を採用する。
また,特徴相関構造に基づく特徴選択の新たな考え方についても検討する。
大規模な実験により,提案手法は従来の表型データ分類タスクの汚職手法よりも一貫して優れていた。
私たちのコードはhttps://github.com/willtop/Tabular-Class-Conditioned-SSLで利用可能です。
関連論文リスト
- Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains [0.565395466029518]
そこで本研究では,古典的ビンニング手法に基づく新しいプレテキストタスクを提案する。
その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。
我々の実証調査では、ビンニングの利点がいくつか確認されている。
論文 参考訳(メタデータ) (2024-05-13T01:23:14Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Joining datasets via data augmentation in the label space for neural
networks [6.036150783745836]
ラベル空間におけるデータセットの結合を成功させるために,人工的に作成した知識グラフ,繰り返しニューラルネットワーク,ポリシー勾配を活用する新しい手法を提案する。
画像とテキストの分類における実験結果は,我々のアプローチの有効性を正当化するものである。
論文 参考訳(メタデータ) (2021-06-17T06:08:11Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文 参考訳(メタデータ) (2020-10-30T03:04:22Z) - i-Mix: A Domain-Agnostic Strategy for Contrastive Representation
Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。
実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文 参考訳(メタデータ) (2020-10-17T23:32:26Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。