論文の概要: MultiTab: A Comprehensive Benchmark Suite for Multi-Dimensional Evaluation in Tabular Domains
- arxiv url: http://arxiv.org/abs/2505.14312v1
- Date: Tue, 20 May 2025 13:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.23505
- Title: MultiTab: A Comprehensive Benchmark Suite for Multi-Dimensional Evaluation in Tabular Domains
- Title(参考訳): MultiTab: タブラル領域における多次元評価のための総合ベンチマークスイート
- Authors: Kyungeun Lee, Moonjung Eo, Hye-Seung Cho, Dongmin Kim, Ye Seul Sim, Seoyoon Kim, Min-Kook Suh, Woohyung Lim,
- Abstract要約: 我々は,多次元データ認識分析のためのベンチマークスイートと評価フレームワークであるMultiTabを提案する。
集約されたモデルのみを比較するのではなく、MultiTabは主要なデータ特性に沿って、196の公開データセットを分類する。
分析の結果、モデルの性能はそのような状況に非常に敏感であることがわかった。
- 参考スコア(独自算出の注目度): 4.126887977388267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the widespread use of tabular data in real-world applications, most benchmarks rely on average-case metrics, which fail to reveal how model behavior varies across diverse data regimes. To address this, we propose MultiTab, a benchmark suite and evaluation framework for multi-dimensional, data-aware analysis of tabular learning algorithms. Rather than comparing models only in aggregate, MultiTab categorizes 196 publicly available datasets along key data characteristics, including sample size, label imbalance, and feature interaction, and evaluates 13 representative models spanning a range of inductive biases. Our analysis shows that model performance is highly sensitive to such regimes: for example, models using sample-level similarity excel on datasets with large sample sizes or high inter-feature correlation, while models encoding inter-feature dependencies perform best with weakly correlated features. These findings reveal that inductive biases do not always behave as intended, and that regime-aware evaluation is essential for understanding and improving model behavior. MultiTab enables more principled model design and offers practical guidance for selecting models tailored to specific data characteristics. All datasets, code, and optimization logs are publicly available at https://huggingface.co/datasets/LGAI-DILab/Multitab.
- Abstract(参考訳): 現実世界のアプリケーションで表形式のデータが広く使用されているにもかかわらず、ほとんどのベンチマークは平均ケースのメトリクスに依存しており、さまざまなデータレシエーションでモデルの振る舞いがどのように変化するかを明らかにしていない。
そこで本稿では,表型学習アルゴリズムの多次元データ認識分析のためのベンチマークスイートと評価フレームワークであるMultiTabを提案する。
集約されたモデルのみを比較するのではなく、MultiTabは、サンプルサイズ、ラベルの不均衡、機能相互作用を含む主要なデータ特性に沿って、196の公開データセットを分類し、インダクティブバイアスの範囲にまたがる13の代表的なモデルを評価する。
例えば、サンプルレベルの類似性を用いたモデルでは、大きなサンプルサイズを持つデータセットや、高い機能間相関のモデルでは、機能間の依存関係を符号化するモデルでは、弱い相関性を持つ特徴が最善である。
これらの結果から, 帰納的バイアスは必ずしも意図した行動ではなく, モデル行動の理解と改善にはレギュラーアウェア評価が不可欠であることが示唆された。
MultiTabはより原則化されたモデル設計を可能にし、特定のデータ特性に合わせてモデルを選択するための実用的なガイダンスを提供する。
すべてのデータセット、コード、最適化ログはhttps://huggingface.co/datasets/LGAI-DILab/Multitabで公開されている。
関連論文リスト
- Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文 参考訳(メタデータ) (2025-05-19T17:52:58Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。
我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。
このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-27T06:58:52Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。