論文の概要: Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification
- arxiv url: http://arxiv.org/abs/2205.02129v1
- Date: Wed, 4 May 2022 15:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 17:09:58.497619
- Title: Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification
- Title(参考訳): ベンチマークのデータセットはすべて必要か?
テキスト分類のためのデータセット評価の試み
- Authors: Yang Xiao, Jinlan Fu, See-Kiong Ng, Pengfei Liu
- Abstract要約: 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
- 参考スコア(独自算出の注目度): 39.01740345482624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we ask the research question of whether all the datasets in
the benchmark are necessary. We approach this by first characterizing the
distinguishability of datasets when comparing different systems. Experiments on
9 datasets and 36 systems show that several existing benchmark datasets
contribute little to discriminating top-scoring systems, while those less used
datasets exhibit impressive discriminative power. We further, taking the text
classification task as a case study, investigate the possibility of predicting
dataset discrimination based on its properties (e.g., average sentence length).
Our preliminary experiments promisingly show that given a sufficient number of
training experimental records, a meaningful predictor can be learned to
estimate dataset discrimination over unseen datasets. We released all datasets
with features explored in this work on DataLab:
\url{https://datalab.nlpedia.ai}.
- Abstract(参考訳): 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。
9つのデータセットと36のシステムに関する実験では、既存のベンチマークデータセットがトップスコーリングシステムの識別にほとんど貢献していないことが示されている。
さらに,テキスト分類タスクをケーススタディとして,その特性(平均文長など)に基づいてデータセット識別を予測する可能性について検討する。
我々の予備実験は、十分な数のトレーニング実験記録が与えられた場合、有意義な予測器が未知のデータセットに対するデータセットの識別を推定できることを示す。
この作業で調査した機能を備えたデータセットはすべて、DataLabでリリースしました。
関連論文リスト
- A Suite of Fairness Datasets for Tabular Classification [2.0813318162800707]
20のフェアネスデータセットをフェッチし、関連するフェアネスメタデータを提供するための一連の機能を紹介します。
今後、フェアネスを意識した機械学習研究において、より厳格な実験的な評価がもたらされることを願っている。
論文 参考訳(メタデータ) (2023-07-31T19:58:12Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - A Bag-of-Prototypes Representation for Dataset-Level Applications [24.629132557336312]
本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
論文 参考訳(メタデータ) (2023-03-23T13:33:58Z) - Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
論文 参考訳(メタデータ) (2022-10-25T14:33:17Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。