論文の概要: TabFSBench: Tabular Benchmark for Feature Shifts in Open Environment
- arxiv url: http://arxiv.org/abs/2501.18935v2
- Date: Thu, 20 Feb 2025 15:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 15:38:29.508336
- Title: TabFSBench: Tabular Benchmark for Feature Shifts in Open Environment
- Title(参考訳): TabFSBench: オープン環境での機能シフトのためのタブラリベンチマーク
- Authors: Zi-Jian Cheng, Zi-Yi Jia, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: タブラルデータは様々な機械学習タスクで広く利用されている。
これまでの研究は主に分布シフトを緩和することに集中してきたが、特徴シフトは限定的な注目を集めた。
本稿では,表型データにおける特徴シフトに関する最初の包括的研究を行い,最初の表型特徴シフトベンチマーク(TabFSBench)を紹介する。
TabFSBenchは、https://github.com/LAMDASZ-ML/TabFSBenchで数行のPythonコードを使用することで、パブリックアクセス用にリリースされた。
- 参考スコア(独自算出の注目度): 45.368146581808276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is widely utilized in various machine learning tasks. Current tabular learning research predominantly focuses on closed environments, while in real-world applications, open environments are often encountered, where distribution and feature shifts occur, leading to significant degradation in model performance. Previous research has primarily concentrated on mitigating distribution shifts, whereas feature shifts, a distinctive and unexplored challenge of tabular data, have garnered limited attention. To this end, this paper conducts the first comprehensive study on feature shifts in tabular data and introduces the first tabular feature-shift benchmark (TabFSBench). TabFSBench evaluates impacts of four distinct feature-shift scenarios on four tabular model categories across various datasets and assesses the performance of large language models (LLMs) and tabular LLMs in the tabular benchmark for the first time. Our study demonstrates three main observations: (1) most tabular models have the limited applicability in feature-shift scenarios; (2) the shifted feature set importance has a linear relationship with model performance degradation; (3) model performance in closed environments correlates with feature-shift performance. Future research direction is also explored for each observation. TabFSBench is released for public access by using a few lines of Python codes at https://github.com/LAMDASZ-ML/TabFSBench.
- Abstract(参考訳): タブラルデータは様々な機械学習タスクで広く利用されている。
現在の表形式の学習研究は、主に閉じた環境に焦点を当てているが、現実世界のアプリケーションでは、分布や特徴の変化が発生するようなオープンな環境がしばしば遭遇し、モデルの性能が著しく低下する。
従来の研究では主に分布シフトの緩和に焦点が当てられていたが、表形式データの独特で未調査の課題である特徴シフトは、限られた注目を集めている。
そこで本稿では,表型データにおける特徴シフトに関する初の総合的研究を行い,最初の表型特徴シフトベンチマーク(TabFSBench)を紹介する。
TabFSBenchは、さまざまなデータセットにわたる4つの表型モデルカテゴリに対する4つの異なる特徴シフトシナリオの影響を評価し、表型ベンチマークにおいて、大きな言語モデル(LLM)と表型LLMのパフォーマンスを初めて評価する。
本研究は,(1)ほとんどの表形式モデルが特徴シフトシナリオに適用可能であること,(2)シフトした特徴セットの重要性がモデル性能の劣化と線形に関係していること,(3)クローズド環境におけるモデル性能が特徴シフト性能と相関していること,の3点を示す。
今後の研究の方向性も、それぞれの観測のために検討されている。
TabFSBenchは、https://github.com/LAMDASZ-ML/TabFSBenchで数行のPythonコードを使用することで、パブリックアクセス用にリリースされた。
関連論文リスト
- Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。
本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - Fully Test-time Adaptation for Tabular Data [48.67303250592189]
本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文 参考訳(メタデータ) (2024-12-14T15:49:53Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Benchmarking Distribution Shift in Tabular Data with TableShift [32.071534049494076]
TableShiftは、表データの分散シフトベンチマークである。
財政、教育、公共政策、医療、市民参加を含む。
我々は、堅牢な学習法とドメイン一般化法とともに、いくつかの最先端データモデルを比較した大規模な研究を行う。
論文 参考訳(メタデータ) (2023-12-10T18:19:07Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - DIWIFT: Discovering Instance-wise Influential Features for Tabular Data [29.69737486124891]
タブラルデータ(Tabular data)は、小売、銀行、Eコマースなど、ビジネスアプリケーションにおいて最も一般的なデータストレージフォーマットの1つである。
表表データの学習における重要な問題の1つは、影響のある特徴と所定の特徴とを区別することである。
表型データ(DIWIFT)のインスタンス単位に影響を及ぼす特徴を発見するための新しい手法を提案する。
本手法は,検証セットの検証損失を最小限に抑え,トレーニングデータセットやテストデータセットに存在する分散シフトに対してより堅牢である。
論文 参考訳(メタデータ) (2022-07-06T16:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。