論文の概要: Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains
- arxiv url: http://arxiv.org/abs/2405.07414v1
- Date: Mon, 13 May 2024 01:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.336190
- Title: Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains
- Title(参考訳): プレテキストタスクとしてのバインディング: タブラルドメインにおける自己指導型学習の改善
- Authors: Kyungeun Lee, Ye Seul Sim, Hye-Seung Cho, Moonjung Eo, Suhee Yoon, Sanghyu Yoon, Woohyung Lim,
- Abstract要約: そこで本研究では,古典的ビンニング手法に基づく新しいプレテキストタスクを提案する。
その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。
我々の実証調査では、ビンニングの利点がいくつか確認されている。
- 参考スコア(独自算出の注目度): 0.565395466029518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of deep networks to learn superior representations hinges on leveraging the proper inductive biases, considering the inherent properties of datasets. In tabular domains, it is critical to effectively handle heterogeneous features (both categorical and numerical) in a unified manner and to grasp irregular functions like piecewise constant functions. To address the challenges in the self-supervised learning framework, we propose a novel pretext task based on the classical binning method. The idea is straightforward: reconstructing the bin indices (either orders or classes) rather than the original values. This pretext task provides the encoder with an inductive bias to capture the irregular dependencies, mapping from continuous inputs to discretized bins, and mitigates the feature heterogeneity by setting all features to have category-type targets. Our empirical investigations ascertain several advantages of binning: capturing the irregular function, compatibility with encoder architecture and additional modifications, standardizing all features into equal sets, grouping similar values within a feature, and providing ordering information. Comprehensive evaluations across diverse tabular datasets corroborate that our method consistently improves tabular representation learning performance for a wide range of downstream tasks. The codes are available in https://github.com/kyungeun-lee/tabularbinning.
- Abstract(参考訳): ディープネットワークが優れた表現を学習する能力は、データセット固有の特性を考慮して、適切な帰納的バイアスを活用することにある。
表領域では、一意的に不均一な特徴(カテゴリー的特徴と数値的特徴の両方)を効果的に扱い、断片的定数関数のような不規則な関数を把握することが重要である。
自己教師型学習フレームワークにおける課題に対処するために,古典的双対法に基づく新しいプレテキストタスクを提案する。
その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。
このプリテキストタスクは、不規則な依存関係をキャプチャし、連続的な入力から離散化されたビンにマッピングし、すべての特徴をカテゴリタイプのターゲットに設定することで特徴の不均一性を緩和するインコーダに誘導バイアスを与える。
我々の実証研究は、不規則な関数のキャプチャ、エンコーダアーキテクチャとの互換性、追加の修正、すべての機能を同じセットに標準化、機能内で同様の値をグループ化、順序付け情報の提供など、ビンニングのいくつかの利点を実証している。
多様な表表データセットの包括的評価は,幅広い下流タスクに対する表表表現学習性能を一貫して向上させることを裏付けるものである。
コードはhttps://github.com/kyungeun-lee/tabularbinning.comで入手できる。
関連論文リスト
- TabSeq: A Framework for Deep Learning on Tabular Data via Sequential Ordering [5.946579489162407]
この作業では、機能のシーケンシャルな順序付けのための新しいフレームワークであるTabSeqを紹介している。
このような機能の最適なシーケンス順序を見つけることで、ディープラーニングモデルの学習プロセスを改善することができる。
論文 参考訳(メタデータ) (2024-10-17T04:10:36Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - SwitchTab: Switched Autoencoders Are Effective Tabular Learners [16.316153704284936]
グラフデータに対する自己教師付き表現手法であるSwitchTabを紹介する。
SwitchTabは、データペア間の相互および正常な機能を分離することで、潜伏した依存関係をキャプチャする。
その結果、微調整によるエンドツーエンド予測タスクにおいて、優れた性能を示した。
そこで我々は,SwitchTabが相互に疎結合で有意な特徴を可視化することで,説明可能な表現を生成する能力を強調した。
論文 参考訳(メタデータ) (2024-01-04T01:05:45Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - ReConTab: Regularized Contrastive Representation Learning for Tabular
Data [8.178223284255791]
コントラスト学習を正規化した深層自動表現学習フレームワークReConTabを紹介する。
ReConTabは、どんな種類のモデリングタスクにも依存せず、モデル入力から同じ生のフィーチャに基づいて非対称のオートエンコーダを構築する。
大規模な実世界のデータセットで実施された実験は、フレームワークのキャパシティを裏付け、実質的でロバストなパフォーマンス改善をもたらす。
論文 参考訳(メタデータ) (2023-10-28T00:05:28Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Counterfactual Explanation Based on Gradual Construction for Deep
Networks [17.79934085808291]
深層ネットワークがトレーニングデータセットから学んだパターンは、様々なクラスの特徴の変化を観察して把握することができる。
現在のアプローチでは、ディープネットワークの内部特性に関係なく、ターゲットクラスの分類確率を高めるために、特徴修正を行う。
本稿では,トレーニングデータセットから得られた統計情報を利用した実例説明手法を提案する。
論文 参考訳(メタデータ) (2020-08-05T01:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。