論文の概要: A Machine Learning Framework for Data Ingestion in Document Images
- arxiv url: http://arxiv.org/abs/2003.00838v1
- Date: Tue, 11 Feb 2020 12:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:46:19.646852
- Title: A Machine Learning Framework for Data Ingestion in Document Images
- Title(参考訳): 文書画像におけるデータ取り込みのための機械学習フレームワーク
- Authors: Han Fu, Yunyu Bai, Zhuo Li, Jun Shen, Jianling Sun
- Abstract要約: 本稿では,ユーザによってアップロードされた画像を処理し,きめ細かいデータをフォーマットで返送する,文書画像におけるデータ取り込みのための機械学習フレームワークを提案する。
我々は、ステートストリートにおける合成データと実世界のデータの両方について実験を行う。
- 参考スコア(独自算出の注目度): 11.419327121578217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paper documents are widely used as an irreplaceable channel of information in
many fields, especially in financial industry, fostering a great amount of
demand for systems which can convert document images into structured data
representations. In this paper, we present a machine learning framework for
data ingestion in document images, which processes the images uploaded by users
and return fine-grained data in JSON format. Details of model architectures,
design strategies, distinctions with existing solutions and lessons learned
during development are elaborated. We conduct abundant experiments on both
synthetic and real-world data in State Street. The experimental results
indicate the effectiveness and efficiency of our methods.
- Abstract(参考訳): 多くの分野、特に金融業界において、文書画像が構造化されたデータ表現に変換できるシステムに対する大量の需要を育むため、紙文書は情報チャネルとして広く利用されている。
本稿では、ユーザがアップロードした画像を処理し、json形式できめ細かいデータを返す、文書画像におけるデータ取り込みのための機械学習フレームワークを提案する。
モデルアーキテクチャ、設計戦略、既存のソリューションとの区別、開発中に学んだ教訓について詳述する。
ステートストリートでは合成データと実世界データの両方について豊富な実験を行っている。
実験の結果,本手法の有効性と有効性を示した。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Graph-based Deep Generative Modelling for Document Layout Generation [14.907063348987075]
我々は,グラフニューラルネットワーク(GNN)を用いて,高度に可変な文書レイアウトを持つ合成データを生成する深層生成モデルを提案する。
また、管理文書画像上で実験された文書レイアウト生成タスクに対するグラフベースの最初のアプローチである。
論文 参考訳(メタデータ) (2021-07-09T10:49:49Z) - Efficient Document Image Classification Using Region-Based Graph Neural
Network [4.147346416230273]
文書画像分類は、様々な産業にまたがる多くの企業アプリケーションで商業化が可能であるため、依然としてポピュラーな研究分野である。
大規模な事前学習されたコンピュータビジョンと言語モデル、グラフニューラルネットワークの最近の進歩は、ドキュメントイメージの分類に多くのツールを提供している。
本稿では,グラフ畳み込みニューラルネットワークを用いた効率的な文書画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-25T17:57:04Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。