論文の概要: GovScape: A Public Multimodal Search System for 70 Million Pages of Government PDFs
- arxiv url: http://arxiv.org/abs/2511.11010v1
- Date: Fri, 14 Nov 2025 06:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.465515
- Title: GovScape: A Public Multimodal Search System for 70 Million Pages of Government PDFs
- Title(参考訳): GovScape:政府向けPDF7000万ページの公開マルチモーダル検索システム
- Authors: Kyle Deeds, Ying-Hsiang Huang, Claire Gong, Shreya Shaji, Alison Yan, Leslie Harka, Samuel J Klein, Shannon Zejiang Shen, Mark Phillips, Trevor Owens, Benjamin Charles Germain Lee,
- Abstract要約: GovScapeは、連邦政府のPDF10,015,993件のマルチモーダル検索をサポートする公開検索システムである。
本稿では,検索能力,組み込みパイプライン,システムアーキテクチャ,オープンソースなど,GovScapeの構成コンポーネントについて詳述する。
- 参考スコア(独自算出の注目度): 1.4765430484471256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efforts over the past three decades have produced web archives containing billions of webpage snapshots and petabytes of data. The End of Term Web Archive alone contains, among other file types, millions of PDFs produced by the federal government. While preservation with web archives has been successful, significant challenges for access and discoverability remain. For example, current affordances for browsing the End of Term PDFs are limited to downloading and browsing individual PDFs, as well as performing basic keyword search across them. In this paper, we introduce GovScape, a public search system that supports multimodal searches across 10,015,993 federal government PDFs from the 2020 End of Term crawl (70,958,487 total PDF pages) - to our knowledge, all renderable PDFs in the 2020 crawl that are 50 pages or under. GovScape supports four primary forms of search over these 10 million PDFs: in addition to providing (1) filter conditions over metadata facets including domain and crawl date and (2) exact text search against the PDF text, we provide (3) semantic text search and (4) visual search against the PDFs across individual pages, enabling users to structure queries such as "redacted documents" or "pie charts." We detail the constituent components of GovScape, including the search affordances, embedding pipeline, system architecture, and open source codebase. Significantly, the total estimated compute cost for GovScape's pre-processing pipeline for 10 million PDFs was approximately $1,500, equivalent to 47,000 PDF pages per dollar spent on compute, demonstrating the potential for immediate scalability. Accordingly, we outline steps that we have already begun pursuing toward multimodal search at the 100+ million PDF scale. GovScape can be found at https://www.govscape.net.
- Abstract(参考訳): 過去30年間にわたる努力は、数十億のWebページスナップショットとペタバイトのデータを含むWebアーカイブを生み出してきた。
エンド・オブ・ターム・ウェブ・アーカイブ(End of Term Web Archive)は、連邦政府が生成した数百万のPDFを含む。
Webアーカイブによる保存は成功したが、アクセスと発見可能性に関する大きな課題は依然として残っている。
例えば、PDFを閲覧する現在の余裕は、個々のPDFをダウンロードして閲覧することと、それら全体で基本的なキーワード検索を実行することに限定されている。
本稿では、2020年の終末から10,015,993件の連邦政府のPDF(70,958,487件のPDFページ)をまたいだ多モーダル検索をサポートする公開検索システムであるGovScapeを紹介します。
GovScapeは、(1)ドメインやクロール日付を含むメタデータファセット上のフィルタ条件、(2)PDFテキストに対する正確なテキスト検索、(3)セマンティックテキスト検索、(4)個々のページにわたるPDFに対するビジュアル検索の4つの主要な形式をサポートしている。
本稿では,検索能力,組み込みパイプライン,システムアーキテクチャ,オープンソースコードベースなど,GovScapeの構成コンポーネントについて詳述する。
重要なことに、GovScapeの1000万のPDFに対する事前処理パイプラインの計算コストは、およそ1500ドルであり、計算に費やされた1ドルあたり47,000 PDFページに相当する。
したがって、我々は既に1億以上のPDFスケールでマルチモーダル検索を試み始めているステップを概説する。
GovScapeはhttps://www.govscape.net.comにある。
関連論文リスト
- olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models [16.470130668266055]
olmOCRは、PDFをクリーンで線形化された平文に自然な読み順で処理するためのオープンソースのツールキットである。
olmOCRは大規模バッチ処理に最適化されており、異なるハードウェア設定に柔軟にスケールすることができる。
GPT-4o, Gemini Flash 2, Qwen-2.5-VLといったトップビジョン言語モデルでも, olmOCRの方が優れています。
論文 参考訳(メタデータ) (2025-02-25T18:38:38Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。