論文の概要: Attention versus Contrastive Learning of Tabular Data -- A Data-centric
Benchmarking
- arxiv url: http://arxiv.org/abs/2401.04266v1
- Date: Mon, 8 Jan 2024 22:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:24:00.931597
- Title: Attention versus Contrastive Learning of Tabular Data -- A Data-centric
Benchmarking
- Title(参考訳): 表データに対する注意と対照学習--データ中心ベンチマーク
- Authors: Shourav B. Rabbani, Ivan V. Medri, and Manar D. Samad
- Abstract要約: 本稿では,28データセットの幅広い選択に対して,最先端の注意と対照的な学習手法を広く評価する。
ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝っている。
従来の手法は、おそらくより単純な決定境界を持つデータセットを分類しやすくするのにしばしば優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite groundbreaking success in image and text learning, deep learning has
not achieved significant improvements against traditional machine learning (ML)
when it comes to tabular data. This performance gap underscores the need for
data-centric treatment and benchmarking of learning algorithms. Recently,
attention and contrastive learning breakthroughs have shifted computer vision
and natural language processing paradigms. However, the effectiveness of these
advanced deep models on tabular data is sparsely studied using a few data sets
with very large sample sizes, reporting mixed findings after benchmarking
against a limited number of baselines. We argue that the heterogeneity of
tabular data sets and selective baselines in the literature can bias the
benchmarking outcomes. This article extensively evaluates state-of-the-art
attention and contrastive learning methods on a wide selection of 28 tabular
data sets (14 easy and 14 hard-to-classify) against traditional deep and
machine learning. Our data-centric benchmarking demonstrates when traditional
ML is preferred over deep learning and vice versa because no best learning
method exists for all tabular data sets. Combining between-sample and
between-feature attentions conquers the invincible traditional ML on tabular
data sets by a significant margin but fails on high dimensional data, where
contrastive learning takes a robust lead. While a hybrid attention-contrastive
learning strategy mostly wins on hard-to-classify data sets, traditional
methods are frequently superior on easy-to-classify data sets with presumably
simpler decision boundaries. To the best of our knowledge, this is the first
benchmarking paper with statistical analyses of attention and contrastive
learning performances on a diverse selection of tabular data sets against
traditional deep and machine learning baselines to facilitate further advances
in this field.
- Abstract(参考訳): 画像とテキストの学習における画期的な成功にもかかわらず、ディープラーニングは表データに関して従来の機械学習(ML)に対して大きな改善を達成していない。
このパフォーマンスギャップは、データ中心の処理と学習アルゴリズムのベンチマークの必要性の根底にある。
近年,コンピュータビジョンと自然言語処理パラダイムに注目と対比学習のブレークスルーがシフトしている。
しかし、これらの高度な深層モデルが表層データに与える影響は、非常に大きなサンプルサイズを持つ少数のデータセットを用いてわずかに研究され、限られたベースラインに対するベンチマーク後の混合結果を報告している。
表データ集合と文学における選択的ベースラインの不均一性は、ベンチマーク結果にバイアスを与える可能性がある。
本稿は,従来の深層学習と機械学習に対する28の表型データセット(簡単な14と分類が難しい14)の幅広い選択において,最先端の注意と対比学習手法を広範囲に評価する。
データ中心のベンチマークでは、すべての表型データセットに対して最適な学習方法が存在しないため、従来のmlがディープラーニングよりも好まれる場合が示されています。
サンプル間と機能間の注意を組み合わせることで、表形式のデータセット上の無敵のMLをかなりのマージンで征服するが、高次元のデータでは失敗する。
ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝るが、従来の手法は、決定境界がより単純なデータセットよりも優れていることが多い。
我々の知る限りでは、この分野のさらなる進歩を促進するために、従来の深層学習ベースラインに対する表形式のデータセットの多様な選択に対して、注目度と対照的な学習性能を統計的に分析した初めてのベンチマーク論文である。
関連論文リスト
- Mixture of In-Context Prompters for Tabular PFNs [33.76194735049027]
MIXTUREPFNは、36の多様なデータセットに対して、19の強力なディープラーニングとツリーベースのベースラインに対して、Condorcetの勝者である。
上記のアルゴリズムのうち、統計的に有意な上位10位を達成している。
論文 参考訳(メタデータ) (2024-05-25T09:47:59Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Between-Sample Relationship in Learning Tabular Data Using Graph and
Attention Networks [0.0]
本論文は, サンプル間の関係を組み込むことで表型データ表現を学習するi.d仮定を緩和する。
いくつかのGNNとSOTA(State-of-the-art attention model)を用いた仮説について検討する。
その結果,5つのデータセット上での従来の機械学習と,3つのデータセット上でのSOTA深層表型学習よりも注目度の高いGNN手法が優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-11T20:56:21Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Are Deep Image Embedding Clustering Methods Effective for Heterogeneous
Tabular Data? [0.0]
本稿では,画像データセットに対して提案した6つの最先端ベースライン手法を用いて,7つのデータセットのディープ埋め込みクラスタリングに関する最初の研究の1つを実行する。
従来のグラフデータのクラスタリングは8つのメソッドのうち2位にランクされ、最も深いクラスタリングベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-12-28T22:29:10Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Efficient Classification with Counterfactual Reasoning and Active
Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。
実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-25T12:03:40Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。