論文の概要: Automatic Recognition of Learning Resource Category in a Digital Library
- arxiv url: http://arxiv.org/abs/2401.12220v1
- Date: Tue, 28 Nov 2023 07:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 17:42:42.472029
- Title: Automatic Recognition of Learning Resource Category in a Digital Library
- Title(参考訳): デジタル図書館における学習資源カテゴリの自動認識
- Authors: Soumya Banerjee, Debarshi Kumar Sanyal, Samiran Chattopadhyay, Plaban
Kumar Bhowmick, Partha Pratim Das
- Abstract要約: 本稿では,文書画像分類のためのヘテロジニアス学習資源(HLR)データセットを提案する。
このアプローチでは、個々の学習リソースを構成文書イメージ(シート)に分解する。
これらの画像はOCRツールを通じて処理され、テキスト表現を抽出する。
- 参考スコア(独自算出の注目度): 6.865460045260549
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital libraries often face the challenge of processing a large volume of
diverse document types. The manual collection and tagging of metadata can be a
time-consuming and error-prone task. To address this, we aim to develop an
automatic metadata extractor for digital libraries. In this work, we introduce
the Heterogeneous Learning Resources (HLR) dataset designed for document image
classification. The approach involves decomposing individual learning resources
into constituent document images (sheets). These images are then processed
through an OCR tool to extract textual representation. State-of-the-art
classifiers are employed to classify both the document image and its textual
content. Subsequently, the labels of the constituent document images are
utilized to predict the label of the overall document.
- Abstract(参考訳): デジタル図書館は、多種多様な文書タイプを処理するという課題に直面することが多い。
メタデータの手動収集とタグ付けは、時間がかかり、エラーが発生しやすいタスクである。
そこで本研究では,デジタルライブラリの自動メタデータ抽出装置の開発を目標としている。
本稿では,文書画像分類用に設計されたヘテロジニアス・ラーニング・リソース(hlr)データセットを紹介する。
このアプローチでは、個々の学習リソースを構成文書イメージ(シート)に分解する。
これらの画像はOCRツールを通じて処理され、テキスト表現を抽出する。
文書画像とテキスト内容の両方を分類するために最先端の分類器を用いる。
その後、構成文書画像のラベルを利用して、全体文書のラベルを予測する。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - CTP-Net: Character Texture Perception Network for Document Image Forgery
Localization [28.48117743313255]
文書画像中の偽領域をローカライズする文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。
文書画像のセマンティクスを持つ文字は非常に脆弱であるため、偽のトレースをキャプチャすることが偽の領域をローカライズする鍵となる。
The proposed-Net can be localize multi-scale forged area in document images, and outform out of the-of-the-art forgery localization methods。
論文 参考訳(メタデータ) (2023-08-04T06:37:28Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Information Extraction from Scanned Invoice Images using Text Analysis
and Layout Features [0.0]
OCRMinerは、人間が使用するのと同様の方法で文書を処理するように設計されている。
このシステムは、英語で90%、チェコ語で88%の請求データを復元することができる。
論文 参考訳(メタデータ) (2022-08-08T09:46:33Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Graphical Object Detection in Document Images [30.48863304419383]
文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T06:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。