論文の概要: On Evaluation of Document Classification using RVL-CDIP
- arxiv url: http://arxiv.org/abs/2306.12550v1
- Date: Wed, 21 Jun 2023 20:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:13:52.527805
- Title: On Evaluation of Document Classification using RVL-CDIP
- Title(参考訳): RVL-CDIPを用いた文書分類の検討
- Authors: Stefan Larson, Gordon Lim, Kevin Leach
- Abstract要約: RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。
RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。
我々は、新しい文書分類ベンチマークの作成を提唱し、そのようなリソースがどのような特徴を持つべきかを推奨する。
- 参考スコア(独自算出の注目度): 3.575650613011277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The RVL-CDIP benchmark is widely used for measuring performance on the task
of document classification. Despite its widespread use, we reveal several
undesirable characteristics of the RVL-CDIP benchmark. These include (1)
substantial amounts of label noise, which we estimate to be 8.1% (ranging
between 1.6% to 16.9% per document category); (2) presence of many ambiguous or
multi-label documents; (3) a large overlap between test and train splits, which
can inflate model performance metrics; and (4) presence of sensitive
personally-identifiable information like US Social Security numbers (SSNs). We
argue that there is a risk in using RVL-CDIP for benchmarking document
classifiers, as its limited scope, presence of errors (state-of-the-art models
now achieve accuracy error rates that are within our estimated label error
rate), and lack of diversity make it less than ideal for benchmarking. We
further advocate for the creation of a new document classification benchmark,
and provide recommendations for what characteristics such a resource should
include.
- Abstract(参考訳): RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。
広く利用されているにもかかわらず、RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。
例えば、(1)相当量のラベルノイズ(文書カテゴリーあたり1.6%から16.9%)、(2)あいまいな文書や複数のラベル文書の存在、(3)モデルの性能指標を膨らませるテストと列車の分割の重なり、(4)米国社会保障番号(us social security number、ssns)のような個人が特定可能な機密情報の存在、などである。
我々は、文書分類器のベンチマークにRVL-CDIPを使用する場合、その範囲が限られていること、エラーの存在(現在最先端のモデルが評価されたラベル誤り率内にある精度エラー率を達成する)、多様性の欠如がベンチマークに理想的でないことを論じる。
我々はさらに,新しい文書分類ベンチマークの作成を提唱し,リソースがどのような特徴を含むべきかを推奨する。
関連論文リスト
- Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Evaluating Out-of-Distribution Performance on Document Image Classifiers [2.9962867693321473]
RVL-CDIPコーパスは文書分類のデファクト標準ベンチマークである。
このコーパスを使用するすべての研究は、アウト・オブ・ディストリビューション・ドキュメントの評価を含まない。
我々の新しいベンチマークは、アウト・オブ・ディストリビューション文書のパフォーマンスを分析するための貴重な新しいリソースを研究者に提供する。
論文 参考訳(メタデータ) (2022-10-14T01:24:21Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - Needle in a Haystack: Label-Efficient Evaluation under Extreme Class
Imbalance [20.491690754953943]
本稿では,適応的重要度サンプリングに基づくオンライン評価フレームワークを開発する。
実験では、固定ラベル予算において最先端のMSEよりも平均的なMSEが優れていることを示した。
論文 参考訳(メタデータ) (2020-06-12T06:17:26Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Active Bayesian Assessment for Black-Box Classifiers [20.668691047355072]
本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
論文 参考訳(メタデータ) (2020-02-16T08:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。