論文の概要: Automatic Metadata Extraction Incorporating Visual Features from Scanned
Electronic Theses and Dissertations
- arxiv url: http://arxiv.org/abs/2107.00516v1
- Date: Thu, 1 Jul 2021 14:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:31:34.648394
- Title: Automatic Metadata Extraction Incorporating Visual Features from Scanned
Electronic Theses and Dissertations
- Title(参考訳): Scanned Electronic Theses and Dissertations から視覚特徴を取り入れた自動メタデータ抽出
- Authors: Muntabir Hasan Choudhury, Himarsha R. Jayanetti, Jian Wu, William A.
Ingram, Edward A. Fox
- Abstract要約: Electronic Theses と (ETD) には、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。
従来のシーケンスタグ法は主にテキストベースの機能に依存している。
テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。
- 参考スコア(独自算出の注目度): 3.1354625918296612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Electronic Theses and Dissertations (ETDs) contain domain knowledge that can
be used for many digital library tasks, such as analyzing citation networks and
predicting research trends. Automatic metadata extraction is important to build
scalable digital library search engines. Most existing methods are designed for
born-digital documents, so they often fail to extract metadata from scanned
documents such as for ETDs. Traditional sequence tagging methods mainly rely on
text-based features. In this paper, we propose a conditional random field (CRF)
model that combines text-based and visual features. To verify the robustness of
our model, we extended an existing corpus and created a new ground truth corpus
consisting of 500 ETD cover pages with human validated metadata. Our
experiments show that CRF with visual features outperformed both a heuristic
and a CRF model with only text-based features. The proposed model achieved
81.3%-96% F1 measure on seven metadata fields. The data and source code are
publicly available on Google Drive (https://tinyurl.com/y8kxzwrp) and a GitHub
repository (https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf),
respectively.
- Abstract(参考訳): Electronic Theses and Dissertations (ETD) には、引用ネットワークの分析や研究トレンドの予測など、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。
スケーラブルなデジタルライブラリ検索エンジンを構築するには,メタデータの自動抽出が重要である。
既存の手法の多くはデジタル文書用に設計されているため、ETDなどのスキャンされた文書からメタデータを抽出することができないことが多い。
従来のシーケンスタグ法は主にテキストベースの機能に依存している。
本稿では,テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。
モデルのロバスト性を検証するため,既存のコーパスを拡張し,500のETDカバーページと人間の検証済みメタデータからなる新たな真実コーパスを作成した。
実験の結果,視覚的特徴を持つCRFは,テキストベースの特徴のみを持つCRFモデルとヒューリスティックモデルの両方に優れていた。
提案モデルは7つのメタデータフィールドに対して81.3%-96%のf1測定を行った。
データとソースコードはGoogle Drive(https://tinyurl.com/y8kxzwrp)とGitHubリポジトリ(https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf)で公開されている。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - ScanBank: A Benchmark Dataset for Figure Extraction from Scanned
Electronic Theses and Dissertations [3.4252676314771144]
本研究は,電子的論文・論文(ETD)に焦点をあて,アクセス性の向上と実用性の向上を目的としている。
デジタルPDFから図形や表を抽出する手法が提案されているが、スキャンされたETDではうまく機能しない。
この制限に対処するため、ScanBankという1万ページの画像をスキャンした新しいデータセットを提示する。
このデータセットを用いて、YOLOv5に基づくディープニューラルネットワークモデルをトレーニングし、スキャンされたETDから数値とテーブルを正確に抽出する。
論文 参考訳(メタデータ) (2021-06-23T04:43:56Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。