論文の概要: Turning the Tables: Biased, Imbalanced, Dynamic Tabular Datasets for ML
Evaluation
- arxiv url: http://arxiv.org/abs/2211.13358v1
- Date: Thu, 24 Nov 2022 00:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:40:04.943360
- Title: Turning the Tables: Biased, Imbalanced, Dynamic Tabular Datasets for ML
Evaluation
- Title(参考訳): テーブルの変換: ML評価のためのバイアス付き、不均衡、動的タブラルデータセット
- Authors: S\'ergio Jesus, Jos\'e Pombal, Duarte Alves, Andr\'e Cruz, Pedro
Saleiro, Rita P. Ribeiro, Jo\~ao Gama, Pedro Bizarro
- Abstract要約: Bank Account Fraud(BAF)は、プライバシ保護、大規模、現実的なデータセットとして初めて公開された。
BAFは、時間的ダイナミクスや重要なクラス不均衡など、現実世界のアプリケーションで一般的な課題の集合である。
我々は,新しい手法と既存手法を評価するために,より現実的で完全かつ堅牢なテストベッドを研究コミュニティに提供することを目的としている。
- 参考スコア(独自算出の注目度): 3.737892247639591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating new techniques on realistic datasets plays a crucial role in the
development of ML research and its broader adoption by practitioners. In recent
years, there has been a significant increase of publicly available unstructured
data resources for computer vision and NLP tasks. However, tabular data --
which is prevalent in many high-stakes domains -- has been lagging behind. To
bridge this gap, we present Bank Account Fraud (BAF), the first publicly
available 1 privacy-preserving, large-scale, realistic suite of tabular
datasets. The suite was generated by applying state-of-the-art tabular data
generation techniques on an anonymized,real-world bank account opening fraud
detection dataset. This setting carries a set of challenges that are
commonplace in real-world applications, including temporal dynamics and
significant class imbalance. Additionally, to allow practitioners to stress
test both performance and fairness of ML methods, each dataset variant of BAF
contains specific types of data bias. With this resource, we aim to provide the
research community with a more realistic, complete, and robust test bed to
evaluate novel and existing methods.
- Abstract(参考訳): 現実的なデータセットに対する新しいテクニックの評価は、ML研究の発展と実践者によるより広範な採用において重要な役割を果たす。
近年,コンピュータビジョンやNLPタスクのための非構造化データリソースの公開が著しく増加している。
しかし、多くのハイテイクドメインで広く使われている表形式のデータは、遅れを取っている。
このギャップを埋めるために、私たちは、初めて公開された1つのプライバシー保護、大規模、現実的なテーブル型データセットセットである、銀行口座詐欺(bank account fraud, baf)を紹介します。
このスイートは、匿名化された現実世界の銀行口座の不正検出データセットに最先端の表式データ生成技術を適用して生成された。
この設定には、時間的ダイナミクスや重大なクラス不均衡など、現実世界のアプリケーションで一般的な課題が伴う。
さらに、実践者がMLメソッドのパフォーマンスと公平性の両方をテストできるように、各データセットのBAFには、特定の種類のデータバイアスが含まれている。
本資料では, より現実的で, 完全で, 堅牢なテストベッドを研究コミュニティに提供することを目的として, 新規および既存手法の評価を行う。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Deeply-Learned Generalized Linear Models with Missing Data [6.302686933168439]
我々は、深く学習された一般化線形モデルの文脈において、欠測データの形式的処理を行う。
我々は、無視できないパターンと無視できないパターンの両方を柔軟に説明できる新しいアーキテクチャ、textitdlglmを提案する。
UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2022-07-18T20:00:13Z) - Super-App Behavioral Patterns in Credit Risk Models: Financial,
Statistical and Regulatory Implications [110.54266632357673]
従来の官僚データとは対照的に、アプリベースのマーケットプレースから派生した代替データが信用スコアモデルに与える影響を提示する。
2つの国にまたがって検証した結果、これらの新たなデータソースは、低体重者や若年者における金融行動を予測するのに特に有用であることが示された。
論文 参考訳(メタデータ) (2020-05-09T01:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。