論文の概要: On Evaluation of Document Classification using RVL-CDIP
- arxiv url: http://arxiv.org/abs/2306.12550v1
- Date: Wed, 21 Jun 2023 20:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:13:52.527805
- Title: On Evaluation of Document Classification using RVL-CDIP
- Title(参考訳): RVL-CDIPを用いた文書分類の検討
- Authors: Stefan Larson, Gordon Lim, Kevin Leach
- Abstract要約: RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。
RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。
我々は、新しい文書分類ベンチマークの作成を提唱し、そのようなリソースがどのような特徴を持つべきかを推奨する。
- 参考スコア(独自算出の注目度): 3.575650613011277
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The RVL-CDIP benchmark is widely used for measuring performance on the task
of document classification. Despite its widespread use, we reveal several
undesirable characteristics of the RVL-CDIP benchmark. These include (1)
substantial amounts of label noise, which we estimate to be 8.1% (ranging
between 1.6% to 16.9% per document category); (2) presence of many ambiguous or
multi-label documents; (3) a large overlap between test and train splits, which
can inflate model performance metrics; and (4) presence of sensitive
personally-identifiable information like US Social Security numbers (SSNs). We
argue that there is a risk in using RVL-CDIP for benchmarking document
classifiers, as its limited scope, presence of errors (state-of-the-art models
now achieve accuracy error rates that are within our estimated label error
rate), and lack of diversity make it less than ideal for benchmarking. We
further advocate for the creation of a new document classification benchmark,
and provide recommendations for what characteristics such a resource should
include.
- Abstract(参考訳): RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。
広く利用されているにもかかわらず、RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。
例えば、(1)相当量のラベルノイズ(文書カテゴリーあたり1.6%から16.9%)、(2)あいまいな文書や複数のラベル文書の存在、(3)モデルの性能指標を膨らませるテストと列車の分割の重なり、(4)米国社会保障番号(us social security number、ssns)のような個人が特定可能な機密情報の存在、などである。
我々は、文書分類器のベンチマークにRVL-CDIPを使用する場合、その範囲が限られていること、エラーの存在(現在最先端のモデルが評価されたラベル誤り率内にある精度エラー率を達成する)、多様性の欠如がベンチマークに理想的でないことを論じる。
我々はさらに,新しい文書分類ベンチマークの作成を提唱し,リソースがどのような特徴を含むべきかを推奨する。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Multiclass ROC [6.941573057921458]
ペアワイズ・マルチクラス・True Positive Rate(TPR)とFalse Positive Rate(FPR)を要約した評価指標を提供する。
これらの分解ベクターに対する統合は、パフォーマンスに関する2値のAUC等価サマリを提供する。
提案手法をベンチマークデータセット上でのペア平均AUC統計値と比較した。
論文 参考訳(メタデータ) (2024-04-19T19:25:10Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Evaluating Out-of-Distribution Performance on Document Image Classifiers [2.9962867693321473]
RVL-CDIPコーパスは文書分類のデファクト標準ベンチマークである。
このコーパスを使用するすべての研究は、アウト・オブ・ディストリビューション・ドキュメントの評価を含まない。
我々の新しいベンチマークは、アウト・オブ・ディストリビューション文書のパフォーマンスを分析するための貴重な新しいリソースを研究者に提供する。
論文 参考訳(メタデータ) (2022-10-14T01:24:21Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - Active Bayesian Assessment for Black-Box Classifiers [20.668691047355072]
本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
論文 参考訳(メタデータ) (2020-02-16T08:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。