論文の概要: A Survey of Historical Document Image Datasets
- arxiv url: http://arxiv.org/abs/2203.08504v1
- Date: Wed, 16 Mar 2022 09:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 23:56:53.981553
- Title: A Survey of Historical Document Image Datasets
- Title(参考訳): 歴史的文書画像データセットの調査
- Authors: Konstantina Nikolaidou, Mathias Seuret, Hamam Mokayed, Marcus Liwicki
- Abstract要約: 本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
- 参考スコア(独自算出の注目度): 2.8707038627097226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic literature review of image datasets for
document image analysis, focusing on historical documents, such as handwritten
manuscripts and early prints. Finding appropriate datasets for historical
document analysis is a crucial prerequisite to facilitate research using
different machine learning algorithms. However, because of the very large
variety of the actual data (e.g., scripts, tasks, dates, support systems, and
amount of deterioration), the different formats for data and label
representation, and the different evaluation processes and benchmarks, finding
appropriate datasets is a difficult task. This work fills this gap, presenting
a meta-study on existing datasets. After a systematic selection process
(according to PRISMA guidelines), we select 56 studies that are chosen based on
different factors, such as the year of publication, number of methods
implemented in the article, reliability of the chosen algorithms, dataset size,
and journal outlet. We summarize each study by assigning it to one of three
pre-defined tasks: document classification, layout structure, or semantic
analysis. We present the statistics, document type, language, tasks, input
visual aspects, and ground truth information for every dataset. In addition, we
provide the benchmark tasks and results from these papers or recent
competitions. We further discuss gaps and challenges in this domain. We
advocate for providing conversion tools to common formats (e.g., COCO format
for computer vision tasks) and always providing a set of evaluation metrics,
instead of just one, to make results comparable across studies.
- Abstract(参考訳): 本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行い,手書き原稿や初期印刷などの歴史的文書に注目した。
歴史的文書分析に適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を容易にするための重要な前提条件である。
しかし、実際のデータ(スクリプト、タスク、日付、サポートシステム、劣化量など)が非常に多様であるため、データとラベル表現の異なるフォーマット、そして異なる評価プロセスとベンチマークのため、適切なデータセットを見つけることは難しい作業である。
この作業はこのギャップを埋め、既存のデータセットにメタスタディを提供する。
体系的な選択プロセス(prismaガイドラインによる)の後、出版年、記事に実装されたメソッドの数、選択されたアルゴリズムの信頼性、データセットサイズ、ジャーナルアウトレットなど、さまざまな要因に基づいて選択された56の研究を選択します。
各研究は、文書分類、レイアウト構造、意味分析の3つのタスクのうちの1つに割り当てることで要約する。
我々は、各データセットの統計、文書タイプ、言語、タスク、入力視覚的側面、および根拠真理情報を提示する。
さらに、これらの論文や最近のコンペティションのベンチマークタスクや結果も提供します。
この領域におけるギャップと課題をさらに議論する。
私たちは、共通のフォーマット(例えば、コンピュータビジョンタスクのCOCOフォーマット)への変換ツールの提供を提唱し、研究に匹敵する結果を得るために、単に1つではなく一連の評価指標を提供しています。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文 参考訳(メタデータ) (2023-08-24T16:16:47Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。