論文の概要: Identifying Documents In-Scope of a Collection from Web Archives
- arxiv url: http://arxiv.org/abs/2009.00611v1
- Date: Wed, 2 Sep 2020 16:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 18:42:45.159204
- Title: Identifying Documents In-Scope of a Collection from Web Archives
- Title(参考訳): webアーカイブからのコレクションのスコープ内文書の識別
- Authors: Krutarth Patel, Cornelia Caragea, Mark Phillips, Nathaniel Fox
- Abstract要約: 本研究では,機械学習モデルと深層学習モデルの両方と,文書全体や文書の特定部分から抽出した"言葉の袋"(BoW)の特徴について検討する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点をあてる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。
- 参考スコア(独自算出の注目度): 37.34941845795198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web archive data usually contains high-quality documents that are very useful
for creating specialized collections of documents, e.g., scientific digital
libraries and repositories of technical reports. In doing so, there is a
substantial need for automatic approaches that can distinguish the documents of
interest for a collection out of the huge number of documents collected by web
archiving institutions. In this paper, we explore different learning models and
feature representations to determine the best performing ones for identifying
the documents of interest from the web archived data. Specifically, we study
both machine learning and deep learning models and "bag of words" (BoW)
features extracted from the entire document or from specific portions of the
document, as well as structural features that capture the structure of
documents. We focus our evaluation on three datasets that we created from three
different Web archives. Our experimental results show that the BoW classifiers
that focus only on specific portions of the documents (rather than the full
text) outperform all compared methods on all three datasets.
- Abstract(参考訳): Webアーカイブデータは通常、科学的デジタルライブラリや技術レポートのリポジトリなど、特別なドキュメントのコレクションを作成するのに非常に有用な高品質なドキュメントを含んでいる。
これにより、Webアーカイブ機関が収集した膨大な数の文書のうち、コレクションの興味ある文書を識別する自動的なアプローチがかなり必要となる。
本稿では,Webアーカイブデータから興味ある文書を識別する上で,最も優れた学習モデルと特徴表現について検討する。
具体的には、機械学習モデルとディープラーニングモデルの両方と、文書全体または文書の特定の部分から抽出された「単語の袋」(bow)特徴と、文書の構造をキャプチャする構造特徴について研究する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点を当てる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。