論文の概要: Continual Contrastive Learning on Tabular Data with Out of Distribution
- arxiv url: http://arxiv.org/abs/2503.15089v1
- Date: Wed, 19 Mar 2025 10:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:45.157819
- Title: Continual Contrastive Learning on Tabular Data with Out of Distribution
- Title(参考訳): 分布を欠いた語彙データの連続的コントラスト学習
- Authors: Achmad Ginanjar, Xue Li, Priyanka Singh, Wen Hua,
- Abstract要約: アウト・オブ・ディストリビューション(OOD)予測は、マシンラーニングにおいて依然として重要な課題である。
本稿では,データ処理における OOD 課題に対処するための新しいフレームワークである Tabular Continual Contrastive Learning (TCCL) を紹介する。
TCTCは、対照的な学習原則と連続的な学習メカニズムを統合し、3成分アーキテクチャを特徴とする。
- 参考スコア(独自算出の注目度): 11.930322590346139
- License:
- Abstract: Out-of-distribution (OOD) prediction remains a significant challenge in machine learning, particularly for tabular data where traditional methods often fail to generalize beyond their training distribution. This paper introduces Tabular Continual Contrastive Learning (TCCL), a novel framework designed to address OOD challenges in tabular data processing. TCCL integrates contrastive learning principles with continual learning mechanisms, featuring a three-component architecture: an Encoder for data transformation, a Decoder for representation learning, and a Learner Head. We evaluate TCCL against 14 baseline models, including state-of-the-art deep learning approaches and gradient-boosted decision trees (GBDT), across eight diverse tabular datasets. Our experimental results demonstrate that TCCL consistently outperforms existing methods in both classification and regression tasks on OOD data, with particular strength in handling distribution shifts. These findings suggest that TCCL represents a significant advancement in handling OOD scenarios for tabular data.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)予測は、機械学習において重要な課題であり、特に従来の手法がトレーニング分布を超えて一般化できないような表形式のデータではなおさらである。
本稿では,表データ処理におけるOOD課題に対処する新しいフレームワークであるTarbular Continual Contrastive Learning (TCCL)を紹介する。
TCTCは、データ変換のためのエンコーダ、表現学習のためのデコーダ、学習ヘッドという3つのコンポーネントアーキテクチャを備えた、連続的な学習メカニズムと対照的な学習原則を統合している。
我々は,現在最先端のディープラーニングアプローチと,8種類の表付きデータセットにまたがる勾配型決定木(GBDT)を含む,14のベースラインモデルに対してTCCLを評価した。
実験の結果,TCL は OOD データの分類処理と回帰処理の両方において既存の手法よりも優れており,特に分散シフトの処理に長けていることがわかった。
以上の結果から,TCLは表型データに対するOODシナリオの処理において大きな進歩を示していることが示唆された。
関連論文リスト
- Representation Learning on Out of Distribution in Tabular Data [11.930322590346139]
本稿では,標準CPUハードウェア上で効率よく動作する軽量で効率的なソリューションTCLを提案する。
FT-Transformer や ResNet など,TCL が既存のモデルよりも優れていることを示す。
また,本研究では,簡単な実験と可視化によるOODデータの検出と評価の実践的ガイダンスも提供する。
論文 参考訳(メタデータ) (2025-02-14T11:36:04Z) - TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。
意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Attention versus Contrastive Learning of Tabular Data -- A Data-centric
Benchmarking [0.0]
本稿では,28データセットの幅広い選択に対して,最先端の注意と対照的な学習手法を広く評価する。
ハイブリット・アテンション・コントラストの学習戦略は、主に分類が難しいデータセットに勝っている。
従来の手法は、おそらくより単純な決定境界を持つデータセットを分類しやすくするのにしばしば優れている。
論文 参考訳(メタデータ) (2024-01-08T22:36:05Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。