論文の概要: Improving accuracy and speeding up Document Image Classification through
parallel systems
- arxiv url: http://arxiv.org/abs/2006.09141v1
- Date: Tue, 16 Jun 2020 13:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:37:17.397561
- Title: Improving accuracy and speeding up Document Image Classification through
parallel systems
- Title(参考訳): 並列システムによる文書画像分類の精度向上と高速化
- Authors: Javier Ferrando and Juan Luis Dominguez and Jordi Torres and Raul
Garcia and David Garcia and Daniel Garrido and Jordi Cortada and Mateo Valero
- Abstract要約: RVL-CDIPデータセットで、より軽量なモデルで以前の結果を改善することができることを示す。
画像入力のみを増強できるアンサンブルパイプラインを提案する。
最後に、PyTorchとDeep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。
- 参考スコア(独自算出の注目度): 4.102028235659611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a study showing the benefits of the EfficientNet models
compared with heavier Convolutional Neural Networks (CNNs) in the Document
Classification task, essential problem in the digitalization process of
institutions. We show in the RVL-CDIP dataset that we can improve previous
results with a much lighter model and present its transfer learning
capabilities on a smaller in-domain dataset such as Tobacco3482. Moreover, we
present an ensemble pipeline which is able to boost solely image input by
combining image model predictions with the ones generated by BERT model on
extracted text by OCR. We also show that the batch size can be effectively
increased without hindering its accuracy so that the training process can be
sped up by parallelizing throughout multiple GPUs, decreasing the computational
time needed. Lastly, we expose the training performance differences between
PyTorch and Tensorflow Deep Learning frameworks.
- Abstract(参考訳): 本稿では,文書分類タスクにおける重畳畳み込みニューラルネットワーク(CNN)と比較して,効率的なネットモデルの利点を示す。
RVL-CDIPデータセットでは、より軽量なモデルで以前の結果を改善することができ、Tobacco3482のような小さなドメイン内データセット上で転送学習能力を示す。
さらに,OCR による抽出テキスト上で BERT モデルが生成した画像モデル予測と組み合わせることで,画像入力のみの高速化が可能なアンサンブルパイプラインを提案する。
また,バッチサイズが精度を損なうことなく効果的に増大できることを示し,複数のGPUを並列化することでトレーニングプロセスを高速化し,計算時間を短縮できることを示した。
最後に、PyTorchとTensorflow Deep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。
関連論文リスト
- Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - CoV-TI-Net: Transferred Initialization with Modified End Layer for
COVID-19 Diagnosis [5.546855806629448]
転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野で採用されている。
本研究では,MNISTデータセットにPyTorch事前学習モデル(VGG19_bnとWideResNet -101)を適用した。
提案したモデルはKaggleのノートブックで開発、検証され、計算時間を要さずに99.77%の精度に達した。
論文 参考訳(メタデータ) (2022-09-20T08:52:52Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Low-Dose CT Image Denoising Using Parallel-Clone Networks [9.318613261995406]
本稿では,並列入力,並列出力損失,クローン-toclone特徴伝達の利点を利用した並列クローンニューラルネットワーク手法を提案する。
提案モデルでは,従来のモデルと同じような,あるいは少ない数の未知のネットワーク重みを保持できるが,学習過程を著しく加速させることができる。
論文 参考訳(メタデータ) (2020-05-14T05:21:33Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Radon cumulative distribution transform subspace modeling for image
classification [18.709734704950804]
画像変形モデルの幅広いクラスに適用可能な新しい教師付き画像分類法を提案する。
この方法は、画像データに先述のRandon Cumulative Distribution Transform(R-CDT)を用いる。
テスト精度の向上に加えて,計算効率の向上も示す。
論文 参考訳(メタデータ) (2020-04-07T19:47:26Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。