論文の概要: Efficient Document Image Classification Using Region-Based Graph Neural
Network
- arxiv url: http://arxiv.org/abs/2106.13802v1
- Date: Fri, 25 Jun 2021 17:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:46:54.720176
- Title: Efficient Document Image Classification Using Region-Based Graph Neural
Network
- Title(参考訳): 領域ベースグラフニューラルネットワークを用いた効率的な文書画像分類
- Authors: Jaya Krishna Mandivarapu, Eric Bunch, Qian You, Glenn Fung
- Abstract要約: 文書画像分類は、様々な産業にまたがる多くの企業アプリケーションで商業化が可能であるため、依然としてポピュラーな研究分野である。
大規模な事前学習されたコンピュータビジョンと言語モデル、グラフニューラルネットワークの最近の進歩は、ドキュメントイメージの分類に多くのツールを提供している。
本稿では,グラフ畳み込みニューラルネットワークを用いた効率的な文書画像分類フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.147346416230273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document image classification remains a popular research area because it can
be commercialized in many enterprise applications across different industries.
Recent advancements in large pre-trained computer vision and language models
and graph neural networks has lent document image classification many tools.
However using large pre-trained models usually requires substantial computing
resources which could defeat the cost-saving advantages of automatic document
image classification. In the paper we propose an efficient document image
classification framework that uses graph convolution neural networks and
incorporates textual, visual and layout information of the document. We have
rigorously benchmarked our proposed algorithm against several state-of-art
vision and language models on both publicly available dataset and a real-life
insurance document classification dataset. Empirical results on both publicly
available and real-world data show that our methods achieve near SOTA
performance yet require much less computing resources and time for model
training and inference. This results in solutions than offer better cost
advantages, especially in scalable deployment for enterprise applications. The
results showed that our algorithm can achieve classification performance quite
close to SOTA. We also provide comprehensive comparisons of computing
resources, model sizes, train and inference time between our proposed methods
and baselines. In addition we delineate the cost per image using our method and
other baselines.
- Abstract(参考訳): ドキュメントイメージの分類は、さまざまな業界にわたる多くのエンタープライズアプリケーションで商用化できるため、依然として一般的な研究分野である。
大規模事前訓練されたコンピュータビジョンや言語モデル、グラフニューラルネットワークの最近の進歩は、画像分類を多くのツールに貸し出している。
しかし、大きな事前訓練されたモデルを使用するには、通常かなりの計算資源が必要であるため、自動文書画像分類のコスト削減の利点を損なう可能性がある。
本稿では,グラフ畳み込みニューラルネットワークを用いて,文書のテキスト情報,視覚情報,レイアウト情報を組み込んだ効率的な文書画像分類フレームワークを提案する。
提案するアルゴリズムを,公開データセットと実生活保険書分類データセットの両方で,最先端のビジョンと言語モデルに対して厳格にベンチマークした。
公開データと実世界のデータの両方で実証的な結果から,我々の手法はSOTAに近い性能を達成できるが,計算資源やモデルトレーニングや推論に要する時間をはるかに少なくすることがわかった。
これにより、特にエンタープライズアプリケーションのスケーラブルなデプロイメントにおいて、コスト面でのメリットよりも優れたソリューションが実現される。
その結果,本アルゴリズムはSOTAに非常に近い分類性能が得られることがわかった。
また,提案手法とベースライン間の計算資源,モデルサイズ,トレーニング時間,推論時間を包括的に比較した。
さらに、本手法および他のベースラインを用いて画像当たりのコストを並べる。
関連論文リスト
- Appeal prediction for AI up-scaled Images [45.61706071739717]
136のベースイメージと5つの異なるアップスケーリング手法を用いて構築したデータセットについて述べる。
その結果,Real-ESRGANとBSRGANが最適であることが示唆された。
これに加えて,最先端画像の魅力と品質モデルの評価を行ったが,どのモデルも高い予測性能を示しなかった。
論文 参考訳(メタデータ) (2025-02-19T13:45:24Z) - Deep Learning for Economists [2.44755919161855]
ディープラーニングは、大規模で非構造化のテキストや画像データセットから構造化情報をインプットする強力な方法を提供する。
このレビューでは、分類器、回帰モデル、生成AI、埋め込みモデルなど、ディープニューラルネットワークについて紹介する。
適切な方法を使用する場合、ディープラーニングモデルはチューニングが安く、数百万から数十億のデータポイントに関わる問題に十分対応できる。
論文 参考訳(メタデータ) (2024-07-22T02:53:18Z) - Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision [4.600687314645625]
ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
論文 参考訳(メタデータ) (2024-06-09T02:01:25Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。