論文の概要: Evaluating Generative Models for Tabular Data: Novel Metrics and Benchmarking
- arxiv url: http://arxiv.org/abs/2504.20900v1
- Date: Tue, 29 Apr 2025 16:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.980261
- Title: Evaluating Generative Models for Tabular Data: Novel Metrics and Benchmarking
- Title(参考訳): タブラルデータ生成モデルの評価:新しいメトリクスとベンチマーク
- Authors: Dayananda Herurkar, Ahmad Ali, Andreas Dengel,
- Abstract要約: 既存の評価指標は部分的な洞察しか提供せず、生成性能の包括的な指標を欠いている。
本稿では,FAED,FPCAD,RFISの3つの新しい評価指標を提案する。
その結果,FAEDは既存の指標から見過ごされる生成的モデリング問題を効果的に捉えていることがわかった。
- 参考スコア(独自算出の注目度): 11.03600500716845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have revolutionized multiple domains, yet their application to tabular data remains underexplored. Evaluating generative models for tabular data presents unique challenges due to structural complexity, large-scale variability, and mixed data types, making it difficult to intuitively capture intricate patterns. Existing evaluation metrics offer only partial insights, lacking a comprehensive measure of generative performance. To address this limitation, we propose three novel evaluation metrics: FAED, FPCAD, and RFIS. Our extensive experimental analysis, conducted on three standard network intrusion detection datasets, compares these metrics with established evaluation methods such as Fidelity, Utility, TSTR, and TRTS. Our results demonstrate that FAED effectively captures generative modeling issues overlooked by existing metrics. While FPCAD exhibits promising performance, further refinements are necessary to enhance its reliability. Our proposed framework provides a robust and practical approach for assessing generative models in tabular data applications.
- Abstract(参考訳): 生成モデルは複数のドメインに革命をもたらしたが、表データへの適用は未定である。
表データの生成モデルを評価することは、構造的複雑さ、大規模変動性、混合データ型などによるユニークな課題を示し、複雑なパターンを直感的に捉えるのが困難である。
既存の評価指標は部分的な洞察しか提供せず、生成性能の包括的な指標を欠いている。
この制限に対処するために、FAED、FPCAD、RFISの3つの新しい評価指標を提案する。
3つの標準ネットワーク侵入検出データセットを用いて行った大規模な実験分析では、これらの指標を、Fidelity, Utility, TSTR, TRTSなどの確立した評価手法と比較した。
その結果,FAEDは既存の指標から見過ごされる生成的モデリング問題を効果的に捉えていることがわかった。
FPCADは有望な性能を示すが、信頼性を高めるためにはさらなる改良が必要である。
提案するフレームワークは,表データアプリケーションにおける生成モデルを評価するための堅牢で実用的なアプローチを提供する。
関連論文リスト
- Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models [23.91197677628145]
本研究では,標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価選択フレームワークを提案する。
具体的には、Fr'echet Distance(FD)とInception Score(IS)のメトリクスを考慮した、MABに基づく生成モデルの選定を開発する。
実験の結果, 深部生成モデルの標本効率評価と選択に対するMABアプローチの有効性が示唆された。
論文 参考訳(メタデータ) (2024-06-11T16:57:48Z) - Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model [34.1224836768324]
FEVEROUSは、事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
本稿では,モダリティ変換の必要性を解消する,単純だが強力なモデルを提案する。
提案手法は,異なるデータ型間の遅延接続を効果的に利用することにより,包括的かつ信頼性の高い検証予測を実現する。
論文 参考訳(メタデータ) (2024-03-26T03:54:25Z) - Retrieval Augmented Deep Anomaly Detection for Tabular Data [0.0]
研究は、このギャップに対処するために、検索強化モデルを導入した。
本稿では,変圧器モデルを用いてテクスチャ正規サンプルのマスク特徴を再構成する再構成手法を提案する。
31データセットのベンチマークでの実験では、この再構成に基づく異常検出手法をサンプルサンプル依存で拡張することで、検索モジュールによるパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-01-30T14:33:18Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Quantifying Overfitting: Introducing the Overfitting Index [0.0]
オーバーフィッティング(overfitting)とは、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。
本稿では、モデルが過度に適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。
我々の結果は、アーキテクチャ全体にわたる変数過度な振る舞いを強調し、データ拡張による緩和的な影響を強調します。
論文 参考訳(メタデータ) (2023-08-16T21:32:57Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。
モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。
提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文 参考訳(メタデータ) (2020-02-11T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。