論文の概要: CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
- arxiv url: http://arxiv.org/abs/2506.03822v1
- Date: Wed, 04 Jun 2025 10:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.292285
- Title: CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents
- Title(参考訳): CRAWLDoc: 書誌文書のロバストランキングのためのデータセット
- Authors: Fabian Karl, Ansgar Scherp,
- Abstract要約: CRAWLDocは、リンクされたWebドキュメントのコンテキストランク付けのための新しい方法である。
ランディングページとPDF、プロファイル、補足資料を含むすべてのリンクされたWebリソースを検索する。
アンカーテキストやURLとともに、これらのリソースを統一された表現に埋め込む。
- 参考スコア(独自算出の注目度): 3.3916160303055563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Publication databases rely on accurate metadata extraction from diverse web sources, yet variations in web layouts and data formats present challenges for metadata providers. This paper introduces CRAWLDoc, a new method for contextual ranking of linked web documents. Starting with a publication's URL, such as a digital object identifier, CRAWLDoc retrieves the landing page and all linked web resources, including PDFs, ORCID profiles, and supplementary materials. It embeds these resources, along with anchor texts and the URLs, into a unified representation. For evaluating CRAWLDoc, we have created a new, manually labeled dataset of 600 publications from six top publishers in computer science. Our method CRAWLDoc demonstrates a robust and layout-independent ranking of relevant documents across publishers and data formats. It lays the foundation for improved metadata extraction from web documents with various layouts and formats. Our source code and dataset can be accessed at https://github.com/FKarl/CRAWLDoc.
- Abstract(参考訳): 出版データベースは様々なWebソースからの正確なメタデータ抽出に依存しているが、Webレイアウトやデータフォーマットのバリエーションはメタデータプロバイダにとっての課題である。
本稿では,リンクされたWebドキュメントのコンテキストランク付け手法であるCRAWLDocを紹介する。
デジタルオブジェクト識別子のような出版物のURLから始めると、CRAWLDocはランディングページとPDF、ORCIDプロファイル、補足材料を含むすべてのリンクされたWebリソースを検索する。
アンカーテキストやURLとともに、これらのリソースを統一された表現に埋め込む。
CRAWLDocを評価するために、コンピュータサイエンスの上位6つの出版社から600の出版物を手動でラベル付けしたデータセットを作成しました。
我々の手法であるCRAWLDocは,出版社やデータフォーマットにまたがる関連文書のロバストかつレイアウトに依存しないランキングを示す。
Webドキュメントから様々なレイアウトとフォーマットでメタデータを抽出する基盤を築いている。
ソースコードとデータセットはhttps://github.com/FKarl/CRAWLDocでアクセスできます。
関連論文リスト
- BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - CED: Catalog Extraction from Documents [12.037861186708799]
本稿では,文書をカタログ木に解析するトランジションベースのフレームワークを提案する。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
論文 参考訳(メタデータ) (2023-04-28T07:32:00Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - DocOIE: A Document-level Context-Aware Dataset for OpenIE [22.544165148622422]
open information extraction (openie) は文から構造化関係を抽出することを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:14:30Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。