論文の概要: TabFSBench: Tabular Benchmark for Feature Shifts in Open Environment
- arxiv url: http://arxiv.org/abs/2501.18935v2
- Date: Thu, 20 Feb 2025 15:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:29.202193
- Title: TabFSBench: Tabular Benchmark for Feature Shifts in Open Environment
- Title(参考訳): TabFSBench: オープン環境での機能シフトのためのタブラリベンチマーク
- Authors: Zi-Jian Cheng, Zi-Yi Jia, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: タブラルデータは様々な機械学習タスクで広く利用されている。
これまでの研究は主に分布シフトを緩和することに集中してきたが、特徴シフトは限定的な注目を集めた。
本稿では,表型データにおける特徴シフトに関する最初の包括的研究を行い,最初の表型特徴シフトベンチマーク(TabFSBench)を紹介する。
TabFSBenchは、https://github.com/LAMDASZ-ML/TabFSBenchで数行のPythonコードを使用することで、パブリックアクセス用にリリースされた。
- 参考スコア(独自算出の注目度): 45.368146581808276
- License:
- Abstract: Tabular data is widely utilized in various machine learning tasks. Current tabular learning research predominantly focuses on closed environments, while in real-world applications, open environments are often encountered, where distribution and feature shifts occur, leading to significant degradation in model performance. Previous research has primarily concentrated on mitigating distribution shifts, whereas feature shifts, a distinctive and unexplored challenge of tabular data, have garnered limited attention. To this end, this paper conducts the first comprehensive study on feature shifts in tabular data and introduces the first tabular feature-shift benchmark (TabFSBench). TabFSBench evaluates impacts of four distinct feature-shift scenarios on four tabular model categories across various datasets and assesses the performance of large language models (LLMs) and tabular LLMs in the tabular benchmark for the first time. Our study demonstrates three main observations: (1) most tabular models have the limited applicability in feature-shift scenarios; (2) the shifted feature set importance has a linear relationship with model performance degradation; (3) model performance in closed environments correlates with feature-shift performance. Future research direction is also explored for each observation. TabFSBench is released for public access by using a few lines of Python codes at https://github.com/LAMDASZ-ML/TabFSBench.
- Abstract(参考訳): タブラルデータは様々な機械学習タスクで広く利用されている。
現在の表形式の学習研究は、主に閉じた環境に焦点を当てているが、現実世界のアプリケーションでは、分布や特徴の変化が発生するようなオープンな環境がしばしば遭遇し、モデルの性能が著しく低下する。
従来の研究では主に分布シフトの緩和に焦点が当てられていたが、表形式データの独特で未調査の課題である特徴シフトは、限られた注目を集めている。
そこで本稿では,表型データにおける特徴シフトに関する初の総合的研究を行い,最初の表型特徴シフトベンチマーク(TabFSBench)を紹介する。
TabFSBenchは、さまざまなデータセットにわたる4つの表型モデルカテゴリに対する4つの異なる特徴シフトシナリオの影響を評価し、表型ベンチマークにおいて、大きな言語モデル(LLM)と表型LLMのパフォーマンスを初めて評価する。
本研究は,(1)ほとんどの表形式モデルが特徴シフトシナリオに適用可能であること,(2)シフトした特徴セットの重要性がモデル性能の劣化と線形に関係していること,(3)クローズド環境におけるモデル性能が特徴シフト性能と相関していること,の3点を示す。
今後の研究の方向性も、それぞれの観測のために検討されている。
TabFSBenchは、https://github.com/LAMDASZ-ML/TabFSBenchで数行のPythonコードを使用することで、パブリックアクセス用にリリースされた。
関連論文リスト
- Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-12-14T15:49:53Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Benchmarking Distribution Shift in Tabular Data with TableShift [32.071534049494076]
TableShiftは、表データの分散シフトベンチマークである。
財政、教育、公共政策、医療、市民参加を含む。
我々は、堅牢な学習法とドメイン一般化法とともに、いくつかの最先端データモデルを比較した大規模な研究を行う。
論文 参考訳(メタデータ) (2023-12-10T18:19:07Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - DIWIFT: Discovering Instance-wise Influential Features for Tabular Data [29.69737486124891]
タブラルデータ(Tabular data)は、小売、銀行、Eコマースなど、ビジネスアプリケーションにおいて最も一般的なデータストレージフォーマットの1つである。
表表データの学習における重要な問題の1つは、影響のある特徴と所定の特徴とを区別することである。
表型データ(DIWIFT)のインスタンス単位に影響を及ぼす特徴を発見するための新しい手法を提案する。
本手法は,検証セットの検証損失を最小限に抑え,トレーニングデータセットやテストデータセットに存在する分散シフトに対してより堅牢である。
論文 参考訳(メタデータ) (2022-07-06T16:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。