論文の概要: GRIN Transfer: A production-ready tool for libraries to retrieve digital copies from Google Books
- arxiv url: http://arxiv.org/abs/2511.11447v2
- Date: Mon, 17 Nov 2025 15:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.681219
- Title: GRIN Transfer: A production-ready tool for libraries to retrieve digital copies from Google Books
- Title(参考訳): GRIN Transfer: ライブラリがGoogle Booksからデジタルコピーを取得するためのプロダクション対応ツール
- Authors: Liza Daly, Matteo Cargnelutti, Catherine Brobston, John Hess, Greg Leppert, Amanda Watson, Jonathan Zittrain,
- Abstract要約: 本報告ではGRIN Transferの初期リリースを紹介する。
GRIN Transferにより、パートナーライブラリは、GRINからGoogle Booksコレクションを効率的に取り出すことができる。
この記事では、Institutional Books 1.0パイプラインのアップデート版も紹介します。
- 参考スコア(独自算出の注目度): 5.835502815196161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly launched in 2004, the Google Books project has scanned tens of millions of items in partnership with libraries around the world. As part of this project, Google created the Google Return Interface (GRIN). Through this platform, libraries can access their scanned collections, the associated metadata, and the ongoing OCR and metadata improvements that become available as Google reprocesses these collections using new technologies. When downloading the Harvard Library Google Books collection from GRIN to develop the Institutional Books dataset, we encountered several challenges related to rate-limiting and atomized metadata within the GRIN platform. To overcome these challenges and help other libraries make more robust use of their Google Books collections, this technical report introduces the initial release of GRIN Transfer. This open-source and production-ready Python pipeline allows partner libraries to efficiently retrieve their Google Books collections from GRIN. This report also introduces an updated version of our Institutional Books 1.0 pipeline, initially used to analyze, augment, and assemble the Institutional Books 1.0 dataset. We have revised this pipeline for compatibility with the output format of GRIN Transfer. A library could pair these two tools to create an end-to-end processing pipeline for their Google Books collection to retrieve, structure, and enhance data available from GRIN. This report gives an overview of how GRIN Transfer was designed to optimize for reliability and usability in different environments, as well as guidance on configuration for various use cases.
- Abstract(参考訳): 2004年に公開されたGoogle Booksプロジェクトは、世界中の図書館と提携して何千万ものアイテムをスキャンした。
このプロジェクトの一環として、GoogleはGoogle Return Interface(GRIN)を開発した。
このプラットフォームを通じて、ライブラリはスキャンしたコレクション、関連するメタデータ、進行中のOCRとメタデータの改善にアクセスすることができる。
GRINからHarvard Library Google BooksコレクションをダウンロードしてInstitutional Booksデータセットを開発すると、GRINプラットフォーム内のレート制限とアトマイズされたメタデータに関連するいくつかの問題に遭遇した。
これらの課題を克服し、Google Booksコレクションをより堅牢に活用するために、このテクニカルレポートでは、GRIN Transferの初期リリースを紹介している。
このオープンソースでプロダクション対応のPythonパイプラインにより、パートナーライブラリは、GRINからGoogle Booksコレクションを効率的に取り出すことができる。
このレポートではまた、Institutional Books 1.0データセットの解析、拡張、組み立てに最初に使用された、Institutional Books 1.0パイプラインの更新版も紹介している。
我々はこのパイプラインをGRIN Transferの出力フォーマットとの互換性のために修正した。
この2つのツールを組み合わせて、Google Booksコレクションのエンドツーエンド処理パイプラインを作成して、GRINから利用可能なデータを取得し、構造化し、拡張することができる。
本報告では、GRIN Transferが、さまざまな環境における信頼性とユーザビリティを最適化するための設計方法の概要と、さまざまなユースケースの設定に関するガイダンスを提供する。
関連論文リスト
- Roseau: Fast, Accurate, Source-based API Breaking Change Analysis in Java [6.839032445412094]
リッチなセマンティック分析を備えたライブラリコードから,技術に依存しないAPIモデルを構築する,新たな静的解析ツールであるRosauを紹介する。
従来のアプローチとは異なり、RosauはソースコードやバイトコードからAPIモデルを構築することができ、ライブラリ履歴の大規模な時系列解析に最適化されている。
Maven Centralから60の人気のあるライブラリを分析し、Rosauが優れたパフォーマンスを提供し、バージョン間のBCを検出するのに2秒もかからない。
論文 参考訳(メタデータ) (2025-07-23T10:07:19Z) - Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability [1.3281177137699656]
Institutional Books 1.0は、2006年からHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックのコレクションである。
ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。
この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。
論文 参考訳(メタデータ) (2025-06-10T00:11:30Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects [7.450700594277742]
我々はジャギロニア図書館(JL)で新しいデジタル化ワークフローを開発した。
ソリューションは、簡単にアクセスできる技術ソリューション - MS Excelファイルインターフェースを備えたMicrosoftクラウド、メタデータ取得用のOffice Script、ストレージ用のMS 365 -- に基づいており、ドメインの専門家がメタデータを取得することができる。
最終的な目標は、一般的な知識基盤と他の文化遺産コレクションに関連付けられた分析された保持状況を記述する知識グラフを作成することである。
論文 参考訳(メタデータ) (2024-07-09T15:49:47Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。