論文の概要: Evaluation of Neural Network Classification Systems on Document Stream
- arxiv url: http://arxiv.org/abs/2007.07547v1
- Date: Wed, 15 Jul 2020 08:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:10:02.518227
- Title: Evaluation of Neural Network Classification Systems on Document Stream
- Title(参考訳): 文書ストリーム上でのニューラルネットワーク分類システムの評価
- Authors: Joris Voerman, Aurelie Joseph, Mickael Coustaty, Vincent Poulain d
Andecy and Jean-Marc Ogier
- Abstract要約: 我々は,NNに基づく文書分類システムの準最適学習事例における効率を解析する。
評価は,実験室におけるシステム性能を評価するための基準事例,文書ストリーム処理に関連する特定の困難をシミュレートする2例,これらすべての困難を組み合わせた現実的事例の4つに分けられた。
- 参考スコア(独自算出の注目度): 0.5068448669777386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One major drawback of state of the art Neural Networks (NN)-based approaches
for document classification purposes is the large number of training samples
required to obtain an efficient classification. The minimum required number is
around one thousand annotated documents for each class. In many cases it is
very difficult, if not impossible, to gather this number of samples in real
industrial processes. In this paper, we analyse the efficiency of NN-based
document classification systems in a sub-optimal training case, based on the
situation of a company document stream. We evaluated three different
approaches, one based on image content and two on textual content. The
evaluation was divided into four parts: a reference case, to assess the
performance of the system in the lab; two cases that each simulate a specific
difficulty linked to document stream processing; and a realistic case that
combined all of these difficulties. The realistic case highlighted the fact
that there is a significant drop in the efficiency of NN-Based document
classification systems. Although they remain efficient for well represented
classes (with an over-fitting of the system for those classes), it is
impossible for them to handle appropriately less well represented classes.
NN-Based document classification systems need to be adapted to resolve these
two problems before they can be considered for use in a company document
stream.
- Abstract(参考訳): 文書分類目的のための芸術ニューラルネットワーク(NN)ベースのアプローチの最大の欠点は、効率的な分類を得るのに必要な多くのトレーニングサンプルである。
最低要件数は各クラスに対して約1000の注釈付き文書である。
多くの場合、実際の工業プロセスでこの数のサンプルを集めることは不可能ではないとしても、非常に難しい。
本稿では,企業文書ストリームの状況に基づいて,下位最適学習事例におけるnnベースの文書分類システムの有効性について分析する。
画像コンテンツに基づく3つのアプローチと、テキストコンテンツに基づく2つのアプローチを評価した。
評価は4つの部分に分けられた: ラボにおけるシステムの性能を評価するための参照ケース、ドキュメントストリーム処理に関連付けられた特定の難易度をシミュレートする2つのケース、そしてこれらすべての難しさを結合した現実的なケース。
この現実的なケースは、NNベースの文書分類システムの効率が著しく低下しているという事実を強調した。
適切に表現されたクラスには効率が良いが(それらのクラスにはシステムの過度な適合性がある)、適切に表現されていないクラスを扱うことは不可能である。
NNベースの文書分類システムは、企業文書ストリームで使用するために考慮される前に、これらの2つの問題を解決するために適応する必要がある。
関連論文リスト
- Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Domain Agnostic Few-Shot Learning For Document Intelligence [4.243926243206826]
ほとんどショット学習は、クラスラベルを持つ少数のサンプルだけで、新しいクラスに一般化することを目的としていない。
本研究では,ドメインシフト下での文書画像分類の問題に対処する。
論文 参考訳(メタデータ) (2021-10-29T03:19:31Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z) - Legal Document Classification: An Application to Law Area Prediction of
Petitions to Public Prosecution Service [6.696983725360808]
本稿では,NLPを用いたテキスト分類手法を提案する。
我々の主な目標は、各分野の法律に請願書を割り当てるプロセスを自動化することです。
最高の結果は、ドメイン固有のコーパスとリカレントニューラルネットワークアーキテクチャに基づいてトレーニングされたWord2Vecの組み合わせで得られる。
論文 参考訳(メタデータ) (2020-10-13T18:05:37Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z) - Graph Prototypical Networks for Few-shot Learning on Attributed Networks [72.31180045017835]
グラフメタ学習フレームワーク - Graph Prototypeal Networks (GPN) を提案する。
GPNは、属性付きネットワーク上でテキストミータ学習を行い、ターゲット分類タスクを扱うための高度に一般化可能なモデルを導出する。
論文 参考訳(メタデータ) (2020-06-23T04:13:23Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。