論文の概要: U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts
- arxiv url: http://arxiv.org/abs/2401.08425v1
- Date: Tue, 16 Jan 2024 15:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 09:25:49.269130
- Title: U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts
- Title(参考訳): u-diads-bib:古写本の文書レイアウト分析のためのフル・マイ・ショット・ピクセル・プリシズデータセット
- Authors: Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli,
Filippo Pavan, Gian Luca Foresti
- Abstract要約: U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 9.76730765089929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Layout Analysis, which is the task of identifying different semantic
regions inside of a document page, is a subject of great interest for both
computer scientists and humanities scholars as it represents a fundamental step
towards further analysis tasks for the former and a powerful tool to improve
and facilitate the study of the documents for the latter. However, many of the
works currently present in the literature, especially when it comes to the
available datasets, fail to meet the needs of both worlds and, in particular,
tend to lean towards the needs and common practices of the computer science
side, leading to resources that are not representative of the humanities real
needs. For this reason, the present paper introduces U-DIADS-Bib, a novel,
pixel-precise, non-overlapping and noiseless document layout analysis dataset
developed in close collaboration between specialists in the fields of computer
vision and humanities. Furthermore, we propose a novel, computer-aided,
segmentation pipeline in order to alleviate the burden represented by the
time-consuming process of manual annotation, necessary for the generation of
the ground truth segmentation maps. Finally, we present a standardized few-shot
version of the dataset (U-DIADS-BibFS), with the aim of encouraging the
development of models and solutions able to address this task with as few
samples as possible, which would allow for more effective use in a real-world
scenario, where collecting a large number of segmentations is not always
feasible.
- Abstract(参考訳): 文書レイアウト分析は、文書ページ内の異なる意味領域を識別するタスクであり、コンピュータ科学者と人文科学研究者の両方にとって大きな関心事であり、前者のさらなる分析タスクに向けた基本的なステップであり、後者のための文書の研究を改善・促進するための強力なツールである。
しかし、現在文献に存在している作品の多くは、特に利用可能なデータセットに関しては、両方の世界のニーズを満たすことができず、特にコンピュータ科学の分野におけるニーズと共通の実践に傾倒し、人文科学の真のニーズを代表していないリソースに繋がる傾向にある。
そこで本稿では,コンピュータビジョンと人文科学のスペシャリストとの密接なコラボレーションにより開発された,新しい,画素精度,非重複,ノイズのない文書レイアウト分析データセット u-diads-bib を紹介する。
さらに, 基礎的真理セグメンテーションマップの作成に必要な, 手動アノテーションの時間的消費過程で表される負担を軽減するために, 新たなコンピュータ支援セグメンテーションパイプラインを提案する。
最後に、この課題に可能な限り少ないサンプルで対処できるモデルやソリューションの開発を促進することを目的として、データセットの標準化された数ショットバージョン(U-DIADS-BibFS)を提案する。
関連論文リスト
- A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Document AI: A Comparative Study of Transformer-Based, Graph-Based
Models, and Convolutional Neural Networks For Document Layout Analysis [3.231170156689185]
Document AIは、自然言語処理とコンピュータビジョン技術を活用して、文書を自動的に分析することを目的としている。
Document AIの主要なタスクの1つはドキュメントレイアウト分析であり、レイアウト、画像、テキストの内容と空間的関係を解釈することでドキュメントページを構造化する。
論文 参考訳(メタデータ) (2023-08-29T16:58:03Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z) - Vision-Based Layout Detection from Scientific Literature using Recurrent
Convolutional Neural Networks [12.221478896815292]
本稿では,オブジェクト認識と分類のための畳み込みニューラルネットワークを科学的文献レイアウト検出(SLLD)に適用するためのアプローチを提案する。
SLLDは、いくつかの情報抽出問題の共有サブタスクである。
その結果,事前学習ベースネットワークの微調整による改善が得られた。
論文 参考訳(メタデータ) (2020-10-18T23:50:28Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。