論文の概要: A Large Dataset of Historical Japanese Documents with Complex Layouts
- arxiv url: http://arxiv.org/abs/2004.08686v1
- Date: Sat, 18 Apr 2020 18:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:46:47.603165
- Title: A Large Dataset of Historical Japanese Documents with Complex Layouts
- Title(参考訳): 複雑なレイアウトを持つ歴史文書の大規模データセット
- Authors: Zejiang Shen, Kaixuan Zhang, Melissa Dell
- Abstract要約: HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
- 参考スコア(独自算出の注目度): 5.343406649012619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based approaches for automatic document layout analysis and
content extraction have the potential to unlock rich information trapped in
historical documents on a large scale. One major hurdle is the lack of large
datasets for training robust models. In particular, little training data exist
for Asian languages. To this end, we present HJDataset, a Large Dataset of
Historical Japanese Documents with Complex Layouts. It contains over 250,000
layout element annotations of seven types. In addition to bounding boxes and
masks of the content regions, it also includes the hierarchical structures and
reading orders for layout elements. The dataset is constructed using a
combination of human and machine efforts. A semi-rule based method is developed
to extract the layout elements, and the results are checked by human
inspectors. The resulting large-scale dataset is used to provide baseline
performance analyses for text region detection using state-of-the-art deep
learning models. And we demonstrate the usefulness of the dataset on real-world
document digitization tasks. The dataset is available at
https://dell-research-harvard.github.io/HJDataset/.
- Abstract(参考訳): 深層学習に基づく自動文書レイアウト分析とコンテンツ抽出のアプローチは、歴史的文書に閉じ込められたリッチな情報を大規模に解き放つ可能性を秘めている。
大きなハードルのひとつは、堅牢なモデルをトレーニングするための大きなデータセットがないことだ。
特に、アジア言語に関するトレーニングデータはほとんど存在しない。
この目的のために,複雑なレイアウトを持つ歴史文書の大規模データセットであるHJDatasetを提案する。
7種類のレイアウト要素アノテーションが25万以上含まれている。
コンテンツ領域のバウンディングボックスやマスクに加えて、階層構造やレイアウト要素の読み込み順序も含まれている。
データセットは人間と機械の努力を組み合わせて構築される。
レイアウト要素を抽出するために半ルールに基づく手法を開発し,その結果をインスペクタによって検証する。
得られた大規模データセットは、最先端のディープラーニングモデルを用いたテキスト領域検出のベースラインパフォーマンス解析に使用される。
また,実世界の文書デジタル化タスクにおけるデータセットの有用性を示す。
データセットはhttps://dell-research-harvard.github.io/HJDataset/で公開されている。
関連論文リスト
- Diachronic Document Dataset for Semantic Layout Analysis [9.145289299764991]
このデータセットは、デジタル化されたデジタル・デジタル・マテリアルの大きな時間範囲(1600-2024)にまたがる7,254ページの注釈付きページを含む。
異なる時代やジャンルのコンテンツを取り入れることで、様々なレイアウトの複雑さと文書構造の歴史的変化に対処する。
本データセットを用いてオブジェクト検出モデルの評価を行い,入力サイズとサブセットベーストレーニングの影響について検討した。
論文 参考訳(メタデータ) (2024-11-15T09:33:13Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - SDL: New data generation tools for full-level annotated document layout [0.0]
文書処理のための新しいデータ生成ツールを提案する。
このツールは、通常の型文書に最大レベルの視覚情報を提供することに重点を置いている。
また、低リソース言語で大規模なデータセットを扱うこともできる。
論文 参考訳(メタデータ) (2021-06-29T06:32:31Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。