論文の概要: The Notary in the Haystack -- Countering Class Imbalance in Document
Processing with CNNs
- arxiv url: http://arxiv.org/abs/2007.07943v1
- Date: Wed, 15 Jul 2020 18:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:30:39.075017
- Title: The Notary in the Haystack -- Countering Class Imbalance in Document
Processing with CNNs
- Title(参考訳): Haystackのノート - CNNによる文書処理におけるクラス不均衡の対処
- Authors: Martin Leipert, Georg Vogeler, Mathias Seuret, Andreas Maier, Vincent
Christlein
- Abstract要約: 他の文書に関しては、記入器が不足している。
これにより、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が難しくなる。
我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正則化など、さまざまな手法を評価した。
- 参考スコア(独自算出の注目度): 10.076340141538353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Notarial instruments are a category of documents. A notarial instrument can
be distinguished from other documents by its notary sign, a prominent symbol in
the certificate, which also allows to identify the document's issuer.
Naturally, notarial instruments are underrepresented in regard to other
documents. This makes a classification difficult because class imbalance in
training data worsens the performance of Convolutional Neural Networks. In this
work, we evaluate different countermeasures for this problem. They are applied
to a binary classification and a segmentation task on a collection of medieval
documents. In classification, notarial instruments are distinguished from other
documents, while the notary sign is separated from the certificate in the
segmentation task. We evaluate different techniques, such as data augmentation,
under- and oversampling, as well as regularizing with focal loss. The
combination of random minority oversampling and data augmentation leads to the
best performance. In segmentation, we evaluate three loss-functions and their
combinations, where only class-weighted dice loss was able to segment the
notary sign sufficiently.
- Abstract(参考訳): ノートル楽器は文書のカテゴリである。
表記器は、証明書の顕著な記号である表記記号によって他の文書と区別することができ、文書の発行者を特定することもできる。
当然、他の文書に関しては、表記器が過小評価される。
これは、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が困難になる。
本研究では,この問題に対するさまざまな対策を評価する。
これらは、中世文書の集合における二項分類と分割作業に適用される。
分類において、記入器は他の文書と区別され、記入記号は分別タスクの証明書から分離される。
我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正規化など、さまざまな手法を評価する。
ランダムなマイノリティオーバーサンプリングとデータ拡張の組み合わせは、最高のパフォーマンスをもたらす。
セグメンテーションでは,3つの損失関数とそれらの組み合わせを評価し,クラス重み付きサイコロのみを十分分割することができた。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Exploiting stance hierarchies for cost-sensitive stance detection of Web
documents [24.898077978955406]
スタンス検出は、請求書に対する文書の位置(スタンス)を特定することを目的としている。
本稿では,カスケードバイナリ分類器のモジュールパイプラインを提案する。
マイノリティクラスの誤分類コストを強調するニューラルネットワークと従来の分類モデルを組み合わせることで、我々のアプローチを実装します。
論文 参考訳(メタデータ) (2020-07-29T21:40:01Z) - Evaluation of Neural Network Classification Systems on Document Stream [0.5068448669777386]
我々は,NNに基づく文書分類システムの準最適学習事例における効率を解析する。
評価は,実験室におけるシステム性能を評価するための基準事例,文書ストリーム処理に関連する特定の困難をシミュレートする2例,これらすべての困難を組み合わせた現実的事例の4つに分けられた。
論文 参考訳(メタデータ) (2020-07-15T08:52:39Z) - Offline Signature Verification on Real-World Documents [9.271640666465363]
正式な文書から抽出された署名には、スタンプ、会社のシール、支配線、署名ボックスなど、さまざまな種類の隠蔽が含まれている。
本稿では,現実の作家によるオフライン署名検証問題に対処し,銀行の顧客の取引要求文書に隠蔽された署名を記載した文書をクリーンリファレンス署名と比較する。
提案手法は,CycleGANに基づくスタンプクリーニング法とCNNに基づくシグネチャ表現の2つの主成分からなる。
論文 参考訳(メタデータ) (2020-04-25T10:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。